买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】针对语言模型的并行调度方法、装置、设备及存储介质_粤港澳大湾区数字经济研究院(福田)_202311237684.2 

申请/专利权人:粤港澳大湾区数字经济研究院(福田)

申请日:2023-09-25

公开(公告)日:2024-04-16

公开(公告)号:CN116991560B

主分类号:G06F9/48

分类号:G06F9/48;G06F40/58

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2023.11.21#实质审查的生效;2023.11.03#公开

摘要:本申请公开了一种针对语言模型的并行调度方法、装置、设备及存储介质,方法包括根据将待处理数据批划分为若干子数据批并分配至不同工作端;根据工作端的各计算节点实时用于执行所述待处理数据批时的显存使用率将语言模型的张量划分为若干张量块,将各张量块配置于不同计算节点;控制各计算节点并行运行语言模型的推理过程以得到输出数据。本申请通过在执行语言模型的推理过程中根据工作端的各计算节点在用于执行每个待处理数据批时的显存使用率对张量进行动态划分,使得各计算节点分配到的张量块的大小可以根据显存使用率来动态调节,有效提高了计算节点的显存利用率,减少显存冗余,提高了语言模型的推理速度,从而缩短了语言模型的训练时间。

主权项:1.一种针对语言模型的并行调度方法,其特征在于,所述并行调度方法具体包括:检测语言模型的运行阶段,其中,所述运行阶段包括推理阶段和训练阶段,所述推理阶段和所述训练阶段配置各自对应的调度策略,所述推理阶段对应的调度策略与训练阶段对应的调度策略不同;当所述运行阶段为推理阶段时,根据用于执行语言模型的工作端将待处理数据批划分为若干子数据批,并将各子数据批分配至不同工作端;对于每个工作端,基于所述工作端搭载的各计算节点实时用于执行所述待处理数据批时的显存使用率将语言模型的张量动态划分为若干张量块,并将各张量块配置于不同计算节点,其中,各计算节点基于各自对应的张量块进行计算所需的时间同步;控制各工作端搭载的计算节点并行运行语言模型的推理过程,以得到所述待处理数据批对应的输出数据;其中,所述根据用于执行语言模型的工作端将待处理数据批划分为若干子数据批具体为在对待处理数据批进行划分前,获取工作端当前的IO使用率,根据工作端当前的IO使用率将待处理数据批进行动态划分为若干子数据批;工作端搭载的计算节点并行运行语言模型的过程具体包括:控制所述工作端搭载的各计算节点分别将子数据批转换为初始数据矩阵;将所述初始数据矩阵作为目标数据矩阵,并控制所述工作端搭载的各计算节点分别将所述目标数据矩阵与各计算节点配置的张量块进行运算,得到结果张量;将所述工作端搭载的各计算节点得到的结果张量进行拼接,以得到输出数据;将所述输出数据作为目标数据矩阵,重新执行控制所述工作端搭载的各计算节点分别将所述目标数据矩阵与各计算节点配置的张量块进行运算得到结果张量的步骤,直至得到所述子数据批对应的输出数据。

全文数据:

权利要求:

百度查询: 粤港澳大湾区数字经济研究院(福田) 针对语言模型的并行调度方法、装置、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。