【发明授权】预训练模型训练处理方法、装置、电子设备及存储介质_北京智源人工智能研究院_202210234103.9

申请/专利权人：北京智源人工智能研究院

申请日：2022-03-10

公开（公告）日：2024-03-19

公开（公告）号：CN114676761B

主分类号：G06F18/214

分类号：G06F18/214;G06N3/084;G06T1/20

优先权：

专利状态码：有效-授权

法律状态：2024.03.19#授权;2022.07.15#实质审查的生效;2022.06.28#公开

摘要：本发明提供一种预训练模型训练处理方法、装置、电子设备及存储介质，所述方法应用于对待处理模型进行训练处理的服务器，所述服务器包括多个图形处理器，所述方法包括：将关于所述待处理模型的训练数据分摊至各个所述图形处理器；基于数据并行技术，通过各个所述图形处理器对所述训练数据进行分布式计算，用以实现对所述待处理模型进行训练。通过本发明提供的预训练模型训练处理方法，可以确保待处理模型能够在较小的空间占用下实现高效训练。

主权项：1.一种预训练模型训练处理方法，其特征在于，所述方法应用于对待处理模型进行训练处理的服务器，所述服务器包括多个图形处理器，所述方法包括：将关于所述待处理模型的训练数据分摊至各个所述图形处理器；基于数据并行技术，通过各个所述图形处理器对所述训练数据进行分布式计算，用以实现对所述待处理模型进行训练，其中，所述通过各个所述图形处理器对所述训练数据进行分布式计算，用以实现对所述待处理模型进行训练，包括：通过各个所述图形处理器对所述训练数据进行分布式计算，得到关于所述待处理模型的模型参数；将所述模型参数分摊至各个所述图形处理器，并通过各个所述图形处理器对所述模型参数进行分布式计算，用以实现对所述待处理模型进行训练；所述服务器包括中央处理器，在所述将所述模型参数分摊至各个所述图形处理器，并通过各个所述图形处理器对所述模型参数进行分布式计算之后，所述方法还包括：将所述模型参数的优化参数卸载至所述中央处理器进行存储；响应于各个所述图形处理器进行所述模型参数的优化处理，将所述优化参数由所述中央处理器加载至所述图形处理器中进行所述模型参数的优化处理；响应于优化处理完成，将加载至所述图形处理器中的所述优化参数在所述图形处理器中进行释放；所述方法还包括：将所述图形处理器的显存至少划分出第一显存池和第二显存池；所述将所述优化参数由所述中央处理器加载至所述图形处理器中进行所述模型参数的优化处理，包括：在同一时刻，基于所述第一显存池和所述第二显存池交替执行相邻所述优化参数由所述中央处理器加载至所述图形处理器的加载处理，以及在所述图形处理器中基于所述优化参数进行所述模型参数的优化处理，其中，所述图形处理器的显存还包括固定显存，所述固定显存用于存储所述图形处理器长期用到的优化参数；所述图形处理器包括第一图形处理器，所述将所述模型参数分摊至各个所述图形处理器，并通过各个所述图形处理器对所述模型参数进行分布式计算，包括：响应于所述第一图形处理器发起请求指令，基于通信传输获取第二图形处理器中的模型参数，其中，所述请求指令为关于获取所述第二图形处理器中的模型参数的请求，所述第二图形处理器为除所述第一图形处理器之外的其他图形处理器；基于所述第二图形处理器中的模型参数和所述第一图形处理器中的模型参数，通过所述第一图像处理器进行计算，并在计算完毕后从所述第一图形处理器中释放所述第二图形处理器中的模型参数；在所述将所述模型参数分摊至各个所述图形处理器，并通过各个所述图形处理器对所述模型参数进行分布式计算之后，所述方法还包括：将检查点保存至所述图形处理器，其中，所述检查点为在正向传播过程中计算得到的呈离散状分布的隐状态；在反向传播过程中，基于所述检查点对相邻所述检查点之间的信息进行正向传播计算，以得到重放信息；通过所述图形处理器获取所述重放信息，并基于所述重放信息对所述待处理模型进行反向传播训练，并在训练完成后从所述图形处理器中释放所述重放信息。

全文数据：

权利要求：

百度查询：北京智源人工智能研究院预训练模型训练处理方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

下一篇：管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

相关技术

一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

一种无缝钢管送料设备_宁波东进钢管有限公司_202322167126.5

再生废液处理系统_山东荣信集团有限公司_202322260404.1

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

处理相关技术

基板处理设备和基板处理方法_细美事有限公司_202311345152.0

影像处理装置及影像处理方法_纬创资通股份有限公司_202211404107.3

信息处理系统、信息处理方法以及信息处理装置_丰田自动车株式会社_202311325525.8

有机废气处理设备及有机废气处理组件_无锡博洋环境工程有限公司_202322538306.X

数据信号处理方法和数据信号处理装置_铠强科技(平潭)有限公司_202310730790.8

杯、液处理装置以及液处理方法_东京毅力科创株式会社_202311358288.5

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

信息处理装置、信息处理方法以及程序_索尼公司_201880080945.5

医用图像处理装置以及医用图像处理方法_富士胶片医疗健康株式会社_202010503352.4

热处理炉_NGK(苏州)热工技术有限公司_202322575176.7

装置相关技术

发热装置及电子雾化装置_深圳市基克纳科技有限公司_202322129414.1

液体试剂供应装置及分析装置_东亚DKK株式会社_202010736498.3

操控装置、显示装置及车辆_小米汽车科技有限公司_202320552919.6

基板处理装置和流体加热装置_东京毅力科创株式会社_202311318777.8

定影装置及图像形成装置_富士胶片商业创新有限公司_202310510018.5

输入装置_欧姆龙株式会社_201980039113.3

台架装置_北京车和家汽车科技有限公司_202322479605.0

蓄电装置_丰田自动车株式会社_202210313089.1

过滤装置_合肥学院_201910547672.7

景观装置_万达商业规划研究院有限公司_202322576816.6

方法相关技术

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

通信方法及装置_华为技术有限公司_202010617172.9

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

信息处理方法_丰田自动车株式会社_202311358127.6

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

冰箱及其控制方法_LG电子株式会社_202080061858.2

冰箱及其控制方法_重庆海尔制冷电器有限公司_202211295888.7

龙图腾网&IPTOP

【发明授权】预训练模型训练处理方法、装置、电子设备及存储介质_北京智源人工智能研究院_202210234103.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务