申请/专利权人:清华大学
申请日:2023-07-06
公开(公告)日:2024-03-19
公开(公告)号:CN116862019B
主分类号:G06N20/00
分类号:G06N20/00
优先权:
专利状态码:有效-授权
法律状态:2024.03.19#授权;2023.10.27#实质审查的生效;2023.10.10#公开
摘要:本申请涉及一种基于数据并行范式的模型训练方法及装置,其中,方法包括:对目标深度学习模型的计算图进行逐层算子划分和切割,并对计算图的每一层的不同类型的张量的重构代价进行量化建模,以得到每一层的不同类型的张量的重构策略;遍历计算图的每一层的不同类型的张量的重构策略得到最佳重构策略,并基于最佳重构策略生成整个计算图的内存复用策略;构造分布式的运行时后端,基于内存复用策略对计算图的每一个算子进行调度,以达到目标深度学习模型的训练过程的加速目的。由此,解决了相关技术中,受限于单个设备的容量,随着模型的参数量增大,设备的物理内存容量无法满足训练的需求,无法支持更大的模型训练的技术问题。
主权项:1.一种基于数据并行范式的模型训练方法,其特征在于,包括以下步骤:对目标深度学习模型的计算图进行逐层算子划分和切割,并对所述计算图的每一层的不同类型的张量的重构代价进行量化建模,以得到所述每一层的不同类型的张量的重构策略;遍历所述计算图的所述每一层的不同类型的张量的重构策略得到最佳重构策略,并基于所述最佳重构策略生成整个所述计算图的内存复用策略;以及构造分布式的运行时后端,基于所述内存复用策略对所述计算图的每一个所述算子进行调度,以达到所述目标深度学习模型的训练过程的加速目的其中,所述张量的类型包括持久型类型和临时型类型;其中,所述对所述计算图的每一层的不同类型的张量的重构代价进行量化建模,以得到所述每一层的不同类型的张量的重构策略,包括:如果所述张量的类型为所述持久型类型,则所述张量的重构策略包括复制策略、切分策略和交换策略;如果所述张量的类型为所述临时型类型,则所述张量的重构策略包括复制策略、交换策略和重算策略;其中,所述遍历所述计算图的所述每一层的不同类型的张量的重构策略得到最佳重构方式,包括:从所述每一层的不同类型的张量的重构策略中任选一个重构策略;基于任选的所述重构策略,尝试将全部持久型类型的张量切分至每个预设设备中;其中,所述基于任选的所述重构策略,尝试将全部持久型类型的张量切分至每个预设设备中,包括:在每个所述预设设备存放所述全部持久型张量时,将全部的所述持久型类型的张量交换至CPU内存中,否则将全部的临时型类型的张量交换至所述CPU内存中;将所有临时型类型的张量进行重算,并判断所述预设设备的内存容量是否满足预设限制条件;在所述预设设备满足所述预设限制条件时,按照预设深度学习模型的层次化关系,从后往前遍历每一层的所有张量的重构策略,并评估所述重构策略的代价。
全文数据:
权利要求:
百度查询: 清华大学 基于数据并行范式的模型训练方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。