买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于迁移强化学习的海上自主水面船舶避碰决策方法_大连海事大学_202210730090.4 

申请/专利权人:大连海事大学

申请日:2022-06-24

公开(公告)日:2024-04-19

公开(公告)号:CN115167404B

主分类号:G05D1/43

分类号:G05D1/43;G05D109/30

优先权:

专利状态码:有效-授权

法律状态:2024.04.19#授权;2022.10.28#实质审查的生效;2022.10.11#公开

摘要:本发明提供一种基于迁移强化学习的海上自主水面船舶避碰决策方法,包括:获取船舶航行状态及周围环境信息;基于船舶航行状态和《规则》进行船舶会遇场景划分,确定各会遇态势下的船舶推荐避让行为;考虑国际海上避碰规则与良好船艺的制约,引入碰撞危险度概念设计奖励函数,构建基于深度强化学习的船舶自主避碰决策模型;重复训练构建的模型,构建船舶避碰任务集,提出船舶避碰任务的相似度和复杂度度量模型,进行源任务筛选;通过源任务的选择和特征函数提取进行知识的获取,引入知识迁移方法加速目标任务中船舶智能体的训练,在保证避碰安全性的基础上优化决策的实时性。本发明能够有效提升船舶在复杂航行环境中的避碰决策的安全性和实时性。

主权项:1.一种基于迁移强化学习的海上自主水面船舶避碰决策方法,其特征在于,包括如下步骤:S1、获取船舶航行状态信息及周围环境信息;S2、基于船舶航行状态和《国际海上避碰规则》进行船舶会遇场景划分,确定各会遇态势下的船舶推荐避让行为;所述步骤S2的具体实现过程如下:S21、基于本船与目标船的位置、航向和航速信息,确定本船与目标船的会遇态势;S22、结合《国际海上避碰规则》对船舶会遇场景进行划分,确立各会遇态势下的船舶推荐避让行为;S23、绘制船舶避让责任和推荐行动表;S3、考虑国际海上避碰规则与良好船艺的制约,引入碰撞危险度概念设计奖励函数,构建基于深度强化学习的船舶自主避碰决策模型;所述步骤S3的具体实现过程如下:S31、基于船舶会遇场景中的海图信息、障碍物信息、动态环境信息,设计状态空间与动作空间;S32、考虑船舶避碰危险度和规则协同约束,设计奖励函数,具体奖励函数如为:R=Rm+Rg+Rd+Rc+Rt其中,Rm为目标点吸引奖励,Rg为任务结束奖励,Rd动态避碰奖励,Rc为规则奖励,Rt为轨迹平滑奖励;S4、重复训练步骤S3中构建的模型,构建船舶避碰任务集,提出船舶避碰任务的相似度和复杂度度量模型,进行源任务筛选;所述步骤S4的具体实现过程如下:S41、设计船舶避碰任务的复杂度函数,如下: S42、设计船舶避碰任务的相似度函数如下: 其中,Ob,DV,SM,NA分别为影响船舶避碰任务的复杂度的关键要素船舶数量和类型、船舶速度、船舶操纵性、会遇局面;λ1,λ2,λ3,λ4为各元素权重;m,n表示两个避碰任务;S43、通过相似度和复杂度的阈值设置,实现针对目标任务的源任务筛选;S5、通过源任务的选择和特征函数的提取进行知识的获取,引入知识迁移方法加速目标任务中船舶智能体的训练;所述步骤S5的具体实现过程如下:S51、利用第五方位特征选取的源任务MDP中任务的特征进行扩充假设空间H,即价值函数、策略;S52、提取源知识Ks包括状态、动作、奖励作为源任务输入,获取知识,整理为n个特征集合;S53、在特定的状态sm≈sn下,在目标任务中使用经验知识代替随机搜索策略进行动作选择。

全文数据:

权利要求:

百度查询: 大连海事大学 一种基于迁移强化学习的海上自主水面船舶避碰决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。