【发明公布】一种基于强化学习的AUV坐底过程控制器的设计方法_中国科学院沈阳自动化研究所_202311780620.7

申请/专利权人：中国科学院沈阳自动化研究所

申请日：2023-12-22

公开（公告）日：2024-03-22

公开（公告）号：CN117742371A

主分类号：G05D1/485

分类号：G05D1/485;G05D101/10

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.09#实质审查的生效;2024.03.22#公开

摘要：本发明属于机器人控制及机器学习领域，具体说是一种基于强化学习的AUV坐底过程控制器的设计方法，包括以下步骤：将AUV跟踪任务建模为马尔可夫决策过程，构建强化学习训练环境。使用域随机化方法在训练环境中添加随机扰动；使用神经网络将最近N次交互历史映射为上下文变量，生成隐式的环境信息，作为策略网络输入的一部分；利用策略梯度和贝尔曼最优方程分别对策略网络和价值网络进行参数更新，回合奖励曲线收敛时停止训练；将训练完成的策略网络模型部署到AUV实体；完成AUV跟踪控制器训练与部署。本发明可以有效提升端到端强化学习控制器的抗干扰能力，在海流、暗涌等常见的带干扰水下环境中更准确地完成跟踪任务。

主权项：1.一种基于强化学习的AUV坐底过程控制器的设计方法，其特征在于，包括以下步骤：1将AUV跟踪任务进行建模为马尔可夫决策过程，构建强化学习训练环境；2通过域随机化法，在强化学习训练环境中添加随机扰动，以防止控制器过度拟合为单一的模拟环境，并将添加随机扰动的强化学习训练环境生成的训练数据输入至神经网络进行训练；3通过神经网络将策略网络与强化学习训练环境最近的N次交互历史映射为上下文变量，生成隐式的环境信息，作为神经网络训练模型中策略网络输入的一部分；4根据策略梯度和贝尔曼最优方程分别对神经网络训练模型中的策略网络和价值网络进行参数更新，直至回合奖励曲线停止上升，平稳趋于某固定值达到收敛状态，停止训练；5将训练完成的神经网络训练模型部署至AUV实体上，完成AUV跟踪控制器的训练与部署。

全文数据：

权利要求：

百度查询：中国科学院沈阳自动化研究所一种基于强化学习的AUV坐底过程控制器的设计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：交通工具用座椅倾斜装置_丰田纺织株式会社_202080082271.X

下一篇：一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

相关技术

交通工具用座椅倾斜装置_丰田纺织株式会社_202080082271.X

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

龙图腾网&IPTOP

【发明公布】一种基于强化学习的AUV坐底过程控制器的设计方法_中国科学院沈阳自动化研究所_202311780620.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务