首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种神经网络模型动态分层梯度压缩方法_兰州交通大学_202410387893.3 

申请/专利权人:兰州交通大学

申请日:2024-04-01

公开(公告)日:2024-05-17

公开(公告)号:CN118052260A

主分类号:G06N3/0495

分类号:G06N3/0495;G06N3/084;G06N3/0464;G06N3/0442

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.04#实质审查的生效;2024.05.17#公开

摘要:一种深度神经网络模型动态分层梯度压缩方法,将梯度稀疏化压缩方法与流水线并行技术相结合,为每层神经网络匹配一个合适的阈值,通过在后续迭代时动态调整该阈值,实现对每层网络传输梯度的自适应压缩。之后,结合给定的模型结构和硬件配置信息,利用启发式动态规划算法求解最佳的层梯度组合通信方式,将多层小尺度梯度张量合并为一层通信。最后,将求解出的最优的层梯度合并组合应用于具体的训练迭代过程,在保证模型训练精度的同时,提升大规模深度神经网络模型训练速度,实现计算与通信最大化重叠,提高计算资源利用率,为充分利用硬件计算资源,提升深度神经网络模型训练速度提供一个有效的解决方法。

主权项:1.一种神经网络模型动态分层梯度压缩方法,其特征在于,包括如下步骤:1设计动态分层梯度压缩方法,就是给每层梯度计算一个合适的压缩阈值,具体为:首先,当某层l反向传播计算完成梯度后,将层l计算的梯度与该层中的梯度残差相加,梯度残差是计算节点中层l局部累积的所有先前梯度的总和;之后对层l的梯度应用Top-K梯度选择策略,计算得到该层的梯度压缩阈值,通过该阈值对层l计算得到的梯度进行压缩,并使用压缩后的梯度通信;然后累积本次迭代的梯度残差,用于之后迭代计算得到的梯度中;通过多次比较迭代后每层的阈值变化,发现阈值变化缓慢只有轻微的差异,为进一步减少梯度压缩时间开销,根据训练过程中梯度变化缓慢的特点,对层阈值进行重用;在后续训练过程中每隔s次训练迭代对层阈值进行动态调整,并存储每层的阈值信息,然后在后续s-1次迭代过程中重用该阈值;2根据运行平台所支持的硬件计算资源环境,采用具体的深度神经网络模型和训练数据集,对输入的多个小批量mini-batch数据进行训练;3检测模型不同层的前向和反向传播计算时间开销,以及训练过程中内存占用信息,并使用相应数据结构进行记录和存储;4应用步骤3中记录的层各类开销信息,采用启发式动态规划算法将压缩后的多个层梯度信息合并一起通信,降低分层梯度通信过程中的通信延迟开销,进一步加速模型训练速度;5将用户模型及其规划结果作为输入,采用同步数据并行训练方法,在多个分布式设备上执行。

全文数据:

权利要求:

百度查询: 兰州交通大学 一种神经网络模型动态分层梯度压缩方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术