首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于云平台的深度学习并行调度方法、装置和云平台_湖南马栏山视频先进技术研究院有限公司_202410151226.5 

申请/专利权人:湖南马栏山视频先进技术研究院有限公司

申请日:2024-02-02

公开(公告)日:2024-04-30

公开(公告)号:CN117687802B

主分类号:G06F9/50

分类号:G06F9/50;G06F9/54;G06N3/098

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2024.03.29#实质审查的生效;2024.03.12#公开

摘要:本发明提供了一种基于云平台的深度学习并行调度方法、装置和云平台,本发明的方法通过对显存不满足模型内存要求的GPU进行重新组合,能够有效合理调度显存大小不同和计算性能不同的云服务器,充分调度云平台中服务器的计算能力,有效提高了云平台中服务器的计算能力利用率。

主权项:1.一种基于云平台的深度学习并行调度方法,其特征在于,包括如下步骤:S1、获取待训练的深度学习模型和云平台可用的GPU资源,所述可用的GPU资源包括GPU个数,型号,以及对应的显存大小和FP32FP16INT32的浮点计算能力;S2、根据所述待训练深度学习模型的模型参数内存获取所述GPU资源满足所述的待训练深度学习模型的模型参数内存的第一GPU资源,并获取不满足待训练深度学习模型的模型参数内存的第二GPU资源;S3、根据第二GPU资源中每一个GPU的显存,并采用大小结合的原则将所述第二GPU资源进行重新组合以获取组合后的第三GPU资源,其中所述第三GPU资源中的每一个GPU的显存均满足所述待训练深度学习模型的模型参数内存;S4、根据GPU的理论浮点性能和模型的计算类型组成计算所述第一GPU资源和所述第三GPU资源中GPU计算能力,以获取第一GPU资源计算能力和第三GPU资源计算能力;S5、根据所述第一GPU资源计算能力和第三GPU资源计算能力对训练数据进行分配,获取分配到第一GPU资源的数据量和分配到第三GPU资源的数据量;S6、根据分配到第一GPU资源的数据量和分配到第三GPU资源的数据量在所述云平台中选定GPU进行训练;所述步骤S3具体为:将第一型号数组GPU_class_id1[]中GPU显存通过大小结合的原则重新组合后与训练模型的内存大小比较进行分组,得到GPU组合数组GPU_grp_class_id[];根据GPU组合数组GPU_grp_class_id[]中每个GPU组合中GPU显存大小对所述训练模型进行切割分配;步骤S4具体包括以下步骤:S41、遍历第二型号数组GPU_class_id2[]计算其中每个GPU对于所述模型的计算能力并存入第二能力数组GPU_capacity2[];S42、遍历GPU组合数组GPU_grp_class_id[]计算其中每个GPU对于所述模型的计算能力并存入第一能力数组GPU_capacity1[],并根据第一能力数组GPU_capacity1[]计算数组GPU组合数组GPU_grp_class_id[]中每个GPU组合的计算能力并存入组合能力数组GPU_grp_cpt[]。

全文数据:

权利要求:

百度查询: 湖南马栏山视频先进技术研究院有限公司 一种基于云平台的深度学习并行调度方法、装置和云平台

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术