【发明授权】一种基于模型强化学习的自动超参数调节方法_上海交通大学_202111339236.4

导航：龙图腾网> 最新专利技术> 一种基于模型强化学习的自动超参数调节方法_上海交通大学_202111339236.4

申请/专利权人：上海交通大学

申请日：2021-11-12

公开（公告）日：2024-04-30

公开（公告）号：CN114114911B

主分类号：G05B13/04

分类号：G05B13/04;G06N3/08;G06N3/047;G06N7/01

优先权：

专利状态码：有效-授权

法律状态：2024.04.30#授权;2022.03.18#实质审查的生效;2022.03.01#公开

摘要：本发明公开了一种基于模型强化学习的自动超参数调节方法，涉及强化学习方法领域。本发明提出将超参数的调节过程建模为一个新的马尔科夫决策过程，再使用强化学习的方法训练一个超参数控制器。该超参数控制器可以根据当前训练阶段的各种状态，比如模型误差，策略回报奖励等等来自动选择动作以调节相应的超参数。通过超参数控制器调节的基于模型算法的性能远远超过了原始基于模型算法的性能，且可以省去调节超参数所花费的人工成本，可以被运用于自动控制等领域。

主权项：1.一种基于模型强化学习的自动超参数调节方法，其特征在于，将基于模型强化学习的超参数调节过程建模为一个新的马尔科夫决策过程，再通过在这个马尔科夫决策过程中学习一个超参数控制器，以自动调节基于模型强化学习算法的超参数；包括以下步骤：步骤1、对于每一次外层循环，初始化一个基于模型强化学习算法的实例，包括初始化所有网络参数和超参数，清空真实数据集合和虚拟数据集合；之后开始内层循环，即常规基于模型强化学习算法的训练过程；步骤2、对于每一个内层循环训练基于模型强化学习算法的每个回合：1基于模型强化学习算法使用当前策略和真实环境交互，并将搜集到的数据存放入真实数据集合中；2使用所有的真实数据，以一定频率训练模型；3使用上一步训练得到的模型，从真实数据中随机选择一些状态作为起点，生成一定长度的虚拟轨迹，并将生成的数据存放入虚拟数据集合中；4使用一定比例的真实数据和虚拟数据，以一定频率训练策略；5获取当前基于模型强化学习算法训练的状态S，超参数控制器选择动作A，以调整训练策略时的真实数据占总数据的比例，模型训练频率，策略训练频率，模型生成的虚拟轨迹的长度，并根据当前回合基于模型强化学习算法的回报奖励相比使用原始人工选择参数的基于模型强化学习算法的提升量获得奖励R；步骤3、在内层循环结束后，通过获得的S、A、R数据使用近端策略优化算法训练超参数控制器。

全文数据：

权利要求：

百度查询：上海交通大学一种基于模型强化学习的自动超参数调节方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种原子力显微镜及检测方法_北京航空航天大学_202410208618.0

下一篇：具有温度自补偿特性的双翻漏斗式光纤光栅雨量传感器_盐城工学院_201711445139.7

相关技术

一种原子力显微镜及检测方法_北京航空航天大学_202410208618.0

具有温度自补偿特性的双翻漏斗式光纤光栅雨量传感器_盐城工学院_201711445139.7

包括柔性显示器的电子装置_东友精细化工有限公司_202280068042.1

杆塔螺栓检测方法、装置、电子设备及可读存储介质_烟台国网中电电气有限公司_202410172895.0

一种网络节点等级评估指标体系构建方法和系统_中国信息通信研究院_202410154005.3

一种多通道仿生毛发阵列的摩擦电触觉传感器及制备方法_清华大学深圳国际研究生院_202410503767.X

一种双调节光圈_东莞市协辰精密五金有限公司_201810822195.6

一种带有机械手的卡整理装置_石家庄优创科技股份有限公司_202410223060.3

激光切割机_河北睿高机器人科技有限公司_201710965426.4

一种变径微导管双层外层挤出模具及其制备得到的变径微导管和制备方法_河南驼人贝斯特医疗器械有限公司_202410220087.7

基于MILP的港口岸电节点可靠性需求排序方法及系统_国网江苏省电力有限公司苏州供电分公司_202410164443.8

数据传输的异常监测方法、装置、电子设备及存储介质_商飞智能技术有限公司_202410234750.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于模型强化学习的自动超参数调节方法_上海交通大学_202111339236.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务