麒麟软件有限公司魏辉洲获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉麒麟软件有限公司申请的专利一种在k8s上使用异构GPU实现分布式训练的部署方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119718554B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510227978.X,技术领域涉及:G06F9/455;该发明授权一种在k8s上使用异构GPU实现分布式训练的部署方法是由魏辉洲;汪黎;钟生平;曹远志;彭路设计研发完成,并于2025-02-28向国家知识产权局提交的专利申请。
本一种在k8s上使用异构GPU实现分布式训练的部署方法在说明书摘要公布了:本发明涉及计算机领域,提供一种在k8s上使用异构GPU实现分布式训练的部署方法,包括:编写分布式训练任务清单文件CR1并提交到k8s;控制器一监听CR1的创建,根据CR1的配置创建若干个CR2并为各CR2分配训练任务参数;控制器二监听各CR2的创建,根据各CR2的配置创建若干个Pod并为各Pod分配训练任务参数;控制器二判断当前分布式训练是否为弹性训练,如果是,为每个CR2创建一个Hpa资源;当前分布式训练完成后,控制器一删除当前分布式训练任务的所有CR2以删除所有Pod。解决现有无法实现在一个训练任务中同时使用多种GPU来加速分布式训练的技术问题。
本发明授权一种在k8s上使用异构GPU实现分布式训练的部署方法在权利要求书中公布了:1.一种在k8s上使用异构GPU实现分布式训练的部署方法,其特征在于,包括步骤: 根据训练框架需求编写分布式训练任务清单文件CR1,并提交到k8s; 控制器一监听CR1的创建,根据CR1的配置创建若干个CR2并为各CR2分配训练任务参数; 控制器二监听各CR2的创建,根据各CR2的配置创建若干个Pod并为各Pod分配训练任务参数; 控制器二判断当前分布式训练是否为弹性训练,如果是,为每个CR2创建一个Hpa资源; 当前分布式训练完成后,控制器一删除当前分布式训练任务的所有CR2以删除所有Pod; CR1包括Pod.Spec字段一和列表字段,所述Pod.Spec字段一用于配置任意k8sPod模版支持配置的字段,所述列表字段用于配置训练框架需求中不同种类GPU所需的GPU名称、节点数和镜像; 控制器一监听CR1的创建,根据CR1的配置创建若干个CR2并为各CR2分配训练任务参数,包括步骤: 控制器一使用k8sinformer监听到CR1的创建; 遍历CR1列表字段中不同种类GPU的镜像、GPU名称和节点数,分别与CR1的Pod.Spec字段一组合成不同种类GPU所对应的CR2的Pod.Spec字段二, 控制器一根据总节点数和各GPU的节点数计算各GPU的NodeRank局部范围,确定各GPU的CPU和内存,更新到各CR2的Pod.Spec字段二中; 根据生成的Pod.Spec字段二,创建各CR2; CR1、CR2:分别表示控制器一对应的CRD1的实例和控制器二对应的CRD2的实例,其中,CR1由用户创建,CR2由控制器一创建。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人麒麟软件有限公司,其通讯地址为:300450 天津市滨海新区塘沽海洋科技园信安创业广场3号楼6-8层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。