首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于模型强化学习的自动超参数调节方法_上海交通大学_202111339236.4 

申请/专利权人:上海交通大学

申请日:2021-11-12

公开(公告)日:2024-04-30

公开(公告)号:CN114114911B

主分类号:G05B13/04

分类号:G05B13/04;G06N3/08;G06N3/047;G06N7/01

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2022.03.18#实质审查的生效;2022.03.01#公开

摘要:本发明公开了一种基于模型强化学习的自动超参数调节方法,涉及强化学习方法领域。本发明提出将超参数的调节过程建模为一个新的马尔科夫决策过程,再使用强化学习的方法训练一个超参数控制器。该超参数控制器可以根据当前训练阶段的各种状态,比如模型误差,策略回报奖励等等来自动选择动作以调节相应的超参数。通过超参数控制器调节的基于模型算法的性能远远超过了原始基于模型算法的性能,且可以省去调节超参数所花费的人工成本,可以被运用于自动控制等领域。

主权项:1.一种基于模型强化学习的自动超参数调节方法,其特征在于,将基于模型强化学习的超参数调节过程建模为一个新的马尔科夫决策过程,再通过在这个马尔科夫决策过程中学习一个超参数控制器,以自动调节基于模型强化学习算法的超参数;包括以下步骤:步骤1、对于每一次外层循环,初始化一个基于模型强化学习算法的实例,包括初始化所有网络参数和超参数,清空真实数据集合和虚拟数据集合;之后开始内层循环,即常规基于模型强化学习算法的训练过程;步骤2、对于每一个内层循环训练基于模型强化学习算法的每个回合:1基于模型强化学习算法使用当前策略和真实环境交互,并将搜集到的数据存放入真实数据集合中;2使用所有的真实数据,以一定频率训练模型;3使用上一步训练得到的模型,从真实数据中随机选择一些状态作为起点,生成一定长度的虚拟轨迹,并将生成的数据存放入虚拟数据集合中;4使用一定比例的真实数据和虚拟数据,以一定频率训练策略;5获取当前基于模型强化学习算法训练的状态S,超参数控制器选择动作A,以调整训练策略时的真实数据占总数据的比例,模型训练频率,策略训练频率,模型生成的虚拟轨迹的长度,并根据当前回合基于模型强化学习算法的回报奖励相比使用原始人工选择参数的基于模型强化学习算法的提升量获得奖励R;步骤3、在内层循环结束后,通过获得的S、A、R数据使用近端策略优化算法训练超参数控制器。

全文数据:

权利要求:

百度查询: 上海交通大学 一种基于模型强化学习的自动超参数调节方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。