买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种自主式水下机器人运动控制方法及装置_湖南大学_202211269250.6 

申请/专利权人:湖南大学

申请日:2022-10-17

公开(公告)日:2024-04-12

公开(公告)号:CN115586782B

主分类号:G05D1/43

分类号:G05D1/43;G05D109/30

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2023.01.31#实质审查的生效;2023.01.10#公开

摘要:本发明公开了一种自主式水下机器人运动控制方法及装置,该方法包括:构建自主式水下机器人运动控制中的动力学与运动学模型、状态变量、控制变量、效用函数和性能指标函数;设置双启发式动态规划的水下机器人的模型网络;构建双启发式动态规划的动作网络、评价网络和扰动网络并初始化网络;进行基于双启发式动态规划的策略提升过程,包括训练动作网络;进行基于启发式动态规划的策略评估过程,包括训练评价网络;训练启发式动态规划的扰动网络用于拟合外界扰动,包括训练扰动网络;重复动作网络、评价网络和扰动网络的训练,直至满足预设条件,最终得到的动作网络的输出公式用于控制自主式水下机器人的运动。

主权项:1.一种自主式水下机器人运动控制方法,其特征在于,包括:步骤1,构建自主式水下机器人运动控制中的动力学与运动学模型、状态变量、控制变量、效用函数和性能指标函数;其中,定义遵循右手定则的地面坐标系E-ξηζ和自主式水下机器人的运动坐标系O-xyz,地面坐标系原点E为水面上的点,Eζ轴的正向指向地心,取自主式水下机器人的主航向为Eξ轴的正向;运动坐标系的原点O置于自主式水下机器人上,Ox轴的正向为自主式水下机器人主对称轴指向船艏的方向,Oy轴平行于基线面并垂直于Ox轴,指向右舷方向为正;其中,动力学与运动学模型包括三种类型:纵向速度运动模型、航向运动模型与深度控制运动模型;对于纵向速度运动模型,状态变量表示为x=[u],其中u为自主式水下机器人在运动坐标系下的纵向x轴上的速度,控制变量表示为a=[τ1],τ1为螺旋桨沿x轴方向的推力;对于航向运动模型,状态变量表示为x=[v,r,ψ]T,其中v为自主式水下机器人在运动坐标系下的侧向y轴上的速度,r为自主式水下机器人在运动坐标系下绕z轴的航向角速度,ψ为自主式水下机器人在地面坐标系下的航向角,控制变量表示为a=[δr,τ2]T,δr为垂直舵角,τ2为螺旋桨绕z轴方向的扭矩;对于深度控制模型,状态变量表示为x=[w,q,θ,z]T,其中w为自主式水下机器人在运动坐标系下的垂向z轴上的速度,q为自主式水下机器人在运动坐标系下绕y轴的纵倾角速度,θ为自主式水下机器人在地面坐标系下的纵倾角,z为自主式水下机器人在地面坐标系下的垂向深度,控制变量a=[δs,τ1,τ3]T,其中δs为水平舵角,τ1为螺旋桨沿x轴方向的推力,τ3为螺旋桨绕y轴方向的扭矩;效用函数Uxk,ak,ωk满足: 其中,xk为k时刻的状态变量;ak=[a1k,a2k,…,amk]T为k时刻的控制变量,m为控制器的数量;ωk为k时刻的外界干扰;exk为k时刻状态变量xk与目标状态xdk的差值,Q、R、P为预设权重矩阵,为有界的单调递增奇函数,表示控制器控制变量的最大值,s表示积分中的被积变量;γ为预设正实数常量;性能指标函数Jxk满足:Jxk=Uxk,ak,ωk+Jxk+1,其中,定义协状态函数为性能指标函数Jxk关于状态变量xk的梯度;步骤2,设置双启发式动态规划的水下机器人的模型网络;包括设置状态变量满足下式: 其中,xk+1为k+1时刻的状态变量,ωm为模型网络的权值,下标m表示模型网络,φm·为预设激活函数,hxk为预设扰动矩阵;步骤3,构建双启发式动态规划的动作网络、评价网络和扰动网络并初始化网络;其中,动作网络、评价网络和扰动网络分别包括1层输入层、1层隐藏层和1层输出层,动作网络的输入为k时刻下的状态变量xk,输出为与状态变量xk对应的控制变量ak;评价网络的输入为k时刻下的状态变量xk,输出为当前状态对应的协状态函数λxk的近似值;扰动网络的输入为k时刻下的状态变量xk,输出为与状态变量xk对应的外界干扰ωk;其中,设置动作网络的输出计算公式为评价网络的输出计算公式为扰动网络的输出计算公式为其中ωa、ωc、ωω分别为动作网络、评价网络与扰动网络各神经层之间的权值,φa·、φc·、φω·为动作网络、评价网络与扰动网络的预设激活函数;其中,对动作网络、评价网络和扰动网络进行初始化,令ωa和ωω为[-0.1,0.1]之间的任意值,ωc=0;步骤4,进行基于双启发式动态规划的策略提升过程,包括训练动作网络;其中,随机选择一组数量为p的预设状态集{x1k,x2k,…,xpk},将状态集作为动作网络的输入得到对应的动作集{a0x1k,a0x2k,…,a0xpk},再将状态集与动作集作为模型网络的输入,得到对应k+1时刻的状态集{x1k+1,x2k+1,…,xpk+1},利用k+1时刻的状态集作为评价网络的输入得到对应的λxk+1;在动作网络的训练过程中,令xk对应的动作网络的训练输出为即公式计算得到的值作为并利用下式计算训练动作网络的目标值aixk: 采用梯度下降法进行训练,设置权值更新公式为其中,i表示策略提升的次数;ωai表示第i次策略提升时动作网络的权重;ja为训练动作网络时的迭代步数,表示在第i次策略提升时,经历第ja次训练后动作网络的权重;αa为动作网络的预设学习率,损失函数当ja达到预设值或损失函数Eaik小于阈值时训练终止,以得到的ωaija+1作为动作网络的输出计算公式中的ωa的值;否则,以得到的ωaija+1代入动作网络的输出计算公式,以预设状态集作为输入计算得到新的动作集,进行下一次计算;步骤5,进行基于启发式动态规划的策略评估过程,包括训练评价网络;其中,在评价网络的训练过程中,令xk对应的评价网络的训练输出为即公式计算得到的值作为对Jxk=Uxk,ak,ωk+Jxk+1等式两边分别求关于xk的梯度,得到下式计算训练评价网络的目标值λi+1xk: 采用梯度下降法进行训练,权值更新公式为其中jc为训练评价网络的迭代步数,αc为评价网络的预设学习率,损失函数当jc达到预设值或损失函数Ecik小于阈值时训练终止,以得到的ωcijc+1作为评价网络的输出计算公式中的ωc的值;否则,以ωcijc+1代入评价网络的输出计算公式中计算得到新的λixk,进行下一次迭代;步骤6,训练启发式动态规划的扰动网络用于拟合外界扰动,包括训练扰动网络;其中,在训练扰动网络的过程中,令xk对应的扰动网络的输出为即公式计算得到的值作为利用下式计算训练扰动网络的目标值ωixk: 采用梯度下降法进行训练,权值更新公式为其中jω为训练扰动网络的迭代步数,αω为扰动网络的预设学习率,损失函数当jω达到预设值或损失函数Eωik小于阈值时训练终止,以得到的ωωijω+1作为扰动网络的输出计算公式中的ωω的值;否则,将ωωijω+1代入扰动网络的输出公式中计算得到新的ωixk,进行下一次迭代;步骤7,重复步骤4-6直至||λi+1xk-λixk||2ε或iimax,其中,ε为迭代容许误差,imax为i的预设最大值,最终得到的动作网络的输出公式用于控制自主式水下机器人的运动。

全文数据:

权利要求:

百度查询: 湖南大学 一种自主式水下机器人运动控制方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。