买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于世界建模的持续学习框架的学习方法、装置及设备_清华大学_202210522533.0 

申请/专利权人:清华大学

申请日:2022-05-13

公开(公告)日:2024-04-26

公开(公告)号:CN115099401B

主分类号:G06N3/08

分类号:G06N3/08;G06F18/214;G06F30/27

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2022.10.14#实质审查的生效;2022.09.23#公开

摘要:本申请涉及一种基于世界建模的持续学习框架的学习方法、装置及设备,方法包括:将获取的目标数据分为多个训练阶段数据;确定当前训练阶段对应的训练阶段数据,并利用当前训练阶段对应的训练阶段数据同时训练任务模型、世界模型和机理模型;使用前一训练阶段对应的训练阶段数据训练的世界模型进行数据采样,生成与第一训练阶段对应的训练阶段数据至前一训练阶段对应的训练阶段数据相同分布的采样数据,并使用前一训练阶段数据训练的机理模型,对当前训练阶段数据和采样数据处理,得到任务模型上对采样数据的采样梯度响应;基于同时训练的任务模型、世界模型和机理模型,通过采样梯度响应来控制任务模型的学习进程。由此,可以实现持续学习的目标。

主权项:1.一种基于世界建模的持续学习框架的学习方法,其特征在于,持续学习框架包括任务模型、世界模型和机理模型,其中,所述方法包括以下步骤:获取目标数据,并将所述目标数据分为多个训练阶段数据,其中,所述目标数据由自然图像的分类任务得到,且所述目标数据为二维彩色自然图像;确定当前训练阶段对应的训练阶段数据,并利用所述当前训练阶段对应的训练阶段数据同时训练所述任务模型、所述世界模型和所述机理模型;使用前一训练阶段对应的训练阶段数据训练的世界模型进行数据采样,生成与第一训练阶段对应的训练阶段数据至所述前一训练阶段对应的训练阶段数据相同分布的采样数据,并使用前一训练阶段数据训练的机理模型,对当前训练阶段数据和所述采样数据处理,得到所述任务模型上对所述采样数据的采样梯度响应;以及基于所述当前训练阶段对应的训练阶段数据同时训练的所述任务模型、所述世界模型和所述机理模型,通过所述采样梯度响应来控制所述任务模型的学习进程;其中,所述通过所述采样梯度响应来控制所述任务模型的学习进程,包括:基于梯度加权融合算法,通过所述采样梯度响应来控制所述任务模型的学习进程,其中,所述梯度加权融合算法为: ;其中,和;均为所述任务模型的参数,为整数,为学习率,为利用所述当前训练阶段对应的训练阶段数据训练任务模型时得到的参数梯度,为所述采样梯度响应,为所述参数梯度的学习权重,为所述采样梯度响应的学习权重;所述多个训练阶段数据不重合,且当前训练阶段数据无法再次使用所述前一训练阶段数据。

全文数据:

权利要求:

百度查询: 清华大学 基于世界建模的持续学习框架的学习方法、装置及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。