申请/专利权人:北京向量栈科技有限公司
申请日:2023-08-14
公开(公告)日:2024-03-19
公开(公告)号:CN116757260B
主分类号:G06N3/08
分类号:G06N3/08;G06N3/063;G06N3/084
优先权:
专利状态码:有效-授权
法律状态:2024.03.19#授权;2023.10.03#实质审查的生效;2023.09.15#公开
摘要:本申请实施例公开了一种大型预训练模型的训练方法和系统,所述方法包括:将输入数据分别加载到受限处理单元和通用处理单元的存储器中;所述受限处理单元和所述通用处理单元分别根据预训练参数和参数增量执行前向计算,将计算结果存储;将标签加载到所述通用处理单元的存储器中并计算损失;根据计算的损失执行反向计算,计算梯度并更新所述参数增量;重复执行上述步骤,直至指标达到设定目标值或训练步数达到设定步数阈值,训练结束。可以使用计算能力受限的处理单元与通用处理单元共同实现大模型的训练,从而降低了训练过程对通用处理单元的需求,使得关键的大模型训练技术可以在更多的场景被采用,降低了功耗、时延和成本。
主权项:1.一种大型预训练模型的训练方法,其特征在于,所述方法包括:将输入数据分别加载到受限处理单元和通用处理单元的存储器中;所述受限处理单元和所述通用处理单元分别根据预训练参数和参数增量执行前向计算,将计算结果存储;所述通用处理单元将标签加载到所述通用处理单元的存储器中并计算损失;所述通用处理单元根据计算的损失执行反向计算,计算梯度并更新所述参数增量;重复执行上述步骤,直至指标达到设定目标值或训练步数达到设定步数阈值,训练结束;所述受限处理单元和所述通用处理单元根据预训练参数和参数增量执行前向计算,包括:针对前向计算的每一步,若所述受限处理单元的存储器中存在预训练参数,则所述受限处理单元根据所述预训练参数得到这一步前向计算的计算结果;若所述通用处理单元存在所述预训练参数的参数增量,则所述通用处理单元根据所述预训练参数的参数增量得到这一步前向计算的计算结果;将这一步前向计算的计算结果求和,将求和的结果分别发送给所述受限处理单元和所述通用处理单元;所述方法还包括:根据所述梯度将初始化后的预训练参数Φ0更新为Φ0+ΔΦ,如下式所示: 其中,Φ为大型预训练模型的所有参数,Z为训练数据集,x、y分别为输入数据和标签;t为y序列中的序号,yt表示序列的第t个元素,yt表示序列的前t-1个元素,|y|表示序列的长度。
全文数据:
权利要求:
百度查询: 北京向量栈科技有限公司 一种大型预训练模型的训练方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。