买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】预训练模型训练处理方法、装置、电子设备及存储介质_北京智源人工智能研究院_202210234103.9 

申请/专利权人:北京智源人工智能研究院

申请日:2022-03-10

公开(公告)日:2024-03-19

公开(公告)号:CN114676761B

主分类号:G06F18/214

分类号:G06F18/214;G06N3/084;G06T1/20

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2022.07.15#实质审查的生效;2022.06.28#公开

摘要:本发明提供一种预训练模型训练处理方法、装置、电子设备及存储介质,所述方法应用于对待处理模型进行训练处理的服务器,所述服务器包括多个图形处理器,所述方法包括:将关于所述待处理模型的训练数据分摊至各个所述图形处理器;基于数据并行技术,通过各个所述图形处理器对所述训练数据进行分布式计算,用以实现对所述待处理模型进行训练。通过本发明提供的预训练模型训练处理方法,可以确保待处理模型能够在较小的空间占用下实现高效训练。

主权项:1.一种预训练模型训练处理方法,其特征在于,所述方法应用于对待处理模型进行训练处理的服务器,所述服务器包括多个图形处理器,所述方法包括:将关于所述待处理模型的训练数据分摊至各个所述图形处理器;基于数据并行技术,通过各个所述图形处理器对所述训练数据进行分布式计算,用以实现对所述待处理模型进行训练,其中,所述通过各个所述图形处理器对所述训练数据进行分布式计算,用以实现对所述待处理模型进行训练,包括:通过各个所述图形处理器对所述训练数据进行分布式计算,得到关于所述待处理模型的模型参数;将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算,用以实现对所述待处理模型进行训练;所述服务器包括中央处理器,在所述将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算之后,所述方法还包括:将所述模型参数的优化参数卸载至所述中央处理器进行存储;响应于各个所述图形处理器进行所述模型参数的优化处理,将所述优化参数由所述中央处理器加载至所述图形处理器中进行所述模型参数的优化处理;响应于优化处理完成,将加载至所述图形处理器中的所述优化参数在所述图形处理器中进行释放;所述方法还包括:将所述图形处理器的显存至少划分出第一显存池和第二显存池;所述将所述优化参数由所述中央处理器加载至所述图形处理器中进行所述模型参数的优化处理,包括:在同一时刻,基于所述第一显存池和所述第二显存池交替执行相邻所述优化参数由所述中央处理器加载至所述图形处理器的加载处理,以及在所述图形处理器中基于所述优化参数进行所述模型参数的优化处理,其中,所述图形处理器的显存还包括固定显存,所述固定显存用于存储所述图形处理器长期用到的优化参数;所述图形处理器包括第一图形处理器,所述将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算,包括:响应于所述第一图形处理器发起请求指令,基于通信传输获取第二图形处理器中的模型参数,其中,所述请求指令为关于获取所述第二图形处理器中的模型参数的请求,所述第二图形处理器为除所述第一图形处理器之外的其他图形处理器;基于所述第二图形处理器中的模型参数和所述第一图形处理器中的模型参数,通过所述第一图像处理器进行计算,并在计算完毕后从所述第一图形处理器中释放所述第二图形处理器中的模型参数;在所述将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算之后,所述方法还包括:将检查点保存至所述图形处理器,其中,所述检查点为在正向传播过程中计算得到的呈离散状分布的隐状态;在反向传播过程中,基于所述检查点对相邻所述检查点之间的信息进行正向传播计算,以得到重放信息;通过所述图形处理器获取所述重放信息,并基于所述重放信息对所述待处理模型进行反向传播训练,并在训练完成后从所述图形处理器中释放所述重放信息。

全文数据:

权利要求:

百度查询: 北京智源人工智能研究院 预训练模型训练处理方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。