买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】运动学约束条件下基于深度强化学习的UAV路径规划方法_河海大学常州校区_202111282488.8 

申请/专利权人:河海大学常州校区

申请日:2021-11-01

公开(公告)日:2024-04-16

公开(公告)号:CN114003059B

主分类号:G05D1/46

分类号:G05D1/46;G05D109/20

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.02.22#实质审查的生效;2022.02.01#公开

摘要:本发明公开一种运动学约束条件下基于深度强化学习的UAV路径规划方法,具体步骤如下:S1:深度强化学习神经网络根据多个任务点以及静态障碍物的向量坐标得出最短路径;S2:无人机起飞后沿着最短路径飞行执行任务;S3:当探测到存在动态障碍物,无人机向基地发送信号,由超级计算机预测无人机接收信号时所在的位置;S4:根据动态障碍物以及剩余任务点的坐标使用深度强化学习神经网络输出得到新的飞行路径,并通过无线电将新的路径发送给无人机;S5:无人机沿着新的路径执行任务,执行完所有任务后最终返回基地。本发明提出了一种基于online和offline的框架,不仅解决了Q‑Learning中状态和动作都是高维的问题,而且在解决TSP问题的同时考虑运动学模型并避开动态障碍物。

主权项:1.一种运动学约束条件下基于深度强化学习的UAV路径规划方法,其特征在于,具体步骤如下:S1:当无人机在基地时,根据多个任务点以及静态障碍物的向量坐标,使用深度强化学习神经网络得出无人机在运动学约束下的最短路径;其中,所述深度强化学习神经网络包括两个相同结构的神经网络:神经网络Qeval和神经网络Qtarget,初始化期间,两个神经网络的参数权值相同,随后,神经网络Qeval在生成动作选择策略ε-greedy的同时每隔h步进行反向传递训练更新神经Qeval网络的网络参数ω,得到新的神经网络Qeval,具体步骤如下:S1-21:两点之间的最短Dubins曲线距离lDubins的计算公式如下: 式3中,α,β分别为两个点的入射角,d为两个点之间的直线距离,r为Dubins曲线的转弯半径,R代表顺时针运动,S代表直线运动,L代表逆时针运动;当任意两任务点P1和P2之间不存在障碍物时,将两任务点的向量坐标代入公式3中计算得到两任务点的最短Dubins曲线距离当任意两任务点P1和P2之间存在静态障碍物或动态障碍物时,两任务点的最短Dubins曲线距离的具体计算步骤如下:先以动态障碍物或者静态障碍物的中心为圆心作半径为r的圆C2,其中,r为Dubins曲线的转弯半径;随后由无人机所在的位置的运动方向,向圆C2作切线,分别得到公切点以及向量向量表示为: 其中,分别为两个公切点的坐标,为两个公切点的入射角;根据两任务点P1和P2的向量坐标以及向量计算出两任务点P1和P2之间最短Dubins曲线距离如公式5所示: 其中,分别表示任务点P1和P2的向量,其中P1为当前任务点,P2为下一个任务点;均根据公式3计算得到;S1-22:根据两个任务点之间的最短Dubins曲线距离计算奖励值ρ,如公式6所示: 式6中,γ1为折扣系数,设置为0.1,用于防止因训练数据差异过大而导致梯度爆炸;S1-23:采用步骤S1-22计算得到的奖励值ρ计算损失函数的Loss值,所述损失函数中如公式7所示: 式7中,为深度强化学习神经网络Qeval输出的近似Q值,sj为第j条数据的状态,aj为第j条数据的动作,ω为深度强化学习神经网络Qeval中需要训练的参数,yj为无人机通过即时奖励值计算得到的Q值,如公式8所示: 式8中,ρj表示在状态sj采取动作aj获得的即时奖励值,γ2为折扣系数,设置为0.01,为深度强化学习神经网络Qtarget预测在状态s′j+1采取动作a′j所能获得的最大Q值,其中,状态s′j+1为公式8中状态sj采取动作aj后的状态,a′j为无人机在状态s′j+1所能获得最大Q值的动作;S1-24:根据步骤S1-23获得的Loss值反向传递训练更新神经Qeval网络的网络参数ω,此外,每隔5*h步,将神经网络Qeval的ω赋给ω′对网络Qtarget进行更新;S2:无人机起飞后沿着最短路径飞行执行任务;S3:在执行任务过程中,当无人机上的雷达探测到5km里内存在动态障碍物,无人机通过无线电向基地发送动态障碍物以及剩余任务点的向量坐标,并在收到基地的反馈信号前,沿着原先路径飞行,基地的超级计算机根据无人机从发送信号到接收信号的时间t0预测无人机接收信号时所在的位置;S4:基地的超级计算机根据动态障碍物以及剩余任务点的坐标使用深度强化学习神经网络输出所有动作的Q值,并由此生成新的动作选择策略ε-greedy,根据新的动作选择策略ε-greedy选择动作即得到新的飞行路径,并通过无线电将新的路径发送给无人机;S5:无人机在收到反馈信号后,沿着新的路径执行任务,执行完所有任务后最终返回基地,无人机任务完成。

全文数据:

权利要求:

百度查询: 河海大学常州校区 运动学约束条件下基于深度强化学习的UAV路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。