买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于强化学习的无人航行器安全控制方法_江苏科技大学_202311767574.7 

申请/专利权人:江苏科技大学

申请日:2023-12-21

公开(公告)日:2024-04-26

公开(公告)号:CN117930625A

主分类号:G05B9/03

分类号:G05B9/03

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.14#实质审查的生效;2024.04.26#公开

摘要:本发明公开了一种基于强化学习的无人航行器安全控制方法,通过将深度强化学习DDPG算法应用到无人航行器的安全保护控制中,通过使无人航行器在不断交互学习中寻找最优安全控制策略。该方法设计一种由稳定控制器和保护控制器组成的新型控制结构,步骤如下:对潜航器模型按一定的步长求取平衡点,并做线性化处理;利用反馈控制设计镇定控制器,并将其作为内环控制;利用强化学习方法设计保护控制器,将其作为外环控制。通过设计镇定控制器,使原系统只通过提取的这些主要特征点系统就能进行整体描述,有效解决航行器安全航行时存在的鲁棒性低以及设计复杂性。通过对新型控制结构的设计以达到对无人航行器安全控制的目的。

主权项:1.一种基于强化学习的无人航行器安全控制方法,其特征在于:所述控制方法采用双环控制结构,包括内环控制和外环控制,内环控制为采用反馈控制设计的镇定控制器,镇定控制器包括依次信号连接的动态配平器、控制器和航行器,动态配平器输出信号作用于航行器,航行器输出信号反馈给控制器;外环控制为采用强化学习方法设计的保护控制器,保护控制器包括Critic网络模块、Actor网络模块和经验缓存区,航行器与Actor网络模块互通信号,且航行器的输出信号在经验缓存区中储存,并通过经验缓存区输出信号对Actor网络模块、Critic网络模块进行训练以更新两者的网络参数,通过Critic网络模块输出当前状态下以及下一状态下执行对应动作的评估价值以及对应决策,实现航行器的安全飞行。

全文数据:

权利要求:

百度查询: 江苏科技大学 一种基于强化学习的无人航行器安全控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。