买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于深度强化学习的船舶自主靠离泊方法_天津大学_202311674770.X 

申请/专利权人:天津大学

申请日:2023-12-07

公开(公告)日:2024-03-29

公开(公告)号:CN117784777A

主分类号:G05D1/43

分类号:G05D1/43;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.16#实质审查的生效;2024.03.29#公开

摘要:本发明涉及一种基于深度强化学习的船舶自主靠离泊方法,可解决目前船舶自主靠离泊的问题。包括下列步骤:建立船舶的数学模型,包含船舶的运动学模型和动力学模型,使船舶运动过程尽可能逼真;搭建船舶靠离泊的强化学习环境,确定船舶的初始状态和目标状态;基于TCPIP协议进行船舶模型和强化学习环境间的通信;根据船舶的运动特征和仿真环境的特点设计状态空间和动作空间;综合考虑任务需求,塑造合理的奖励函数;基于Actor‑critic框架引入最大熵的SAC算法进行仿真环境中进行船舶的自主靠离泊任务进行训练。本发明提出的基于深度强化学习的船舶自主靠离泊方法解决传统方法的分层问题,具有决策迅速且稳定,参数量较少的优点,可部署在船载计算机上。

主权项:1.一种基于深度强化学习的船舶自主靠离泊方法,其特征在于,步骤如下:第一步:使用matlab构建船舶数学模型;1构建船舶运动学模型。运动学模型描述了船舶这一动力学系统的系统输出舵角、位置、横向速度、纵向速度等等对系统输入偏航角度、螺旋桨转速的动态响应关系。2构建船舶动力学模型。动力学模型基于分离模型分析了船舶的船舶的附加质量和附加力矩、船舶流体粘性类流体力和船舶双螺旋桨水动力矩等,进行船舶的操作性仿真。第二步:构建强化学习环境;1设计船舶的状态空间。根据船舶实际的航行特点,设计状态空间为一组六维连续向量,包括船舶的位置信息即船舶的横纵坐标位置,以及船舶的艏向角以及船舶的运动信息即船舶的横纵速度以及角速度。2设计船舶的动作空间。动作空间为是一个二维向量,分别为船舶的偏航角度和舵机的转速,用来控制船舶的方向和速度。3设计船舶的奖励函数。为了让船舶完成路径任务,船舶的奖励函数一共包括包括五部分:R=λ1||xc,yc-xt,yt||2+λ2||uc,vc-ut,vt||2+λ3||rc-rt||2+λ4||φc-φc||2+λ5rgoal其中,第一项为距离奖励,表示船舶当前位置与目标点之间的相对距离。将相对距离距离作为奖励可以为船舶运动指明方向,使其朝着目标点去运动;第二项表示船舶当前横纵向速度与目标点的速度的差距。此项奖励的目的是为了使船舶到达目标点时,横纵向速度也能减速至0;第三项表示角速度奖励,通过塑造该奖励,让船舶到达靠泊目标点时其角速度也能减为0;第四项表示船舶当前艏向角与目标艏向角的差距,该奖励可以让船舶到达靠泊目标点时艏向角满足一定的要求;第五项表示是否完成靠泊任务,若完成任务给一个较大的奖励,该奖励为船舶提供了较大的正向激励,有利于强化学习算法的收敛。第三步,基于TCPIP协议完成服务端matlab船舶数学模型和客户端python强化学习环境的通信。传输控制协议是位于网际层上层的传输协议,并且是最常用的网络协议之一。通过使用TCPIP协议来建立matlab段船舶模型和python强化学习环境之间的通信,将matlab端设置为服务器Server,将python端设置为客户Client。第四步,构建强化学习算法,收集经验进行模型训练。1基于随机策略进行经验采集。正在训练一开始时,没有收集到任何经验,此时软行动评论算法的温度系数较高,船舶随机选择动作,进行环境探索,并且收集经验存在到经验回放池中。2神经网络训练。在采集到一定量的经验后,按照一定的批次输入到神经网络中,对神经网络进行训练,包括策略网络,动作网络,以及温度系数的衰减。3与环境继续交互。神经网络在经过训练之后,会对所处的环境有一定的了解,智能体会继续进行经验收集,并且对神经网络进行训练,此时,温度系数较小,船舶会选择奖励值较大的动作,神经网络会不断朝着最优策略方向收敛。4不断重复2和3直到策略收敛到最优。

全文数据:

权利要求:

百度查询: 天津大学 一种基于深度强化学习的船舶自主靠离泊方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。