买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度强化学习的无人机编队避撞方法_北航(四川)西部国际创新港科技有限公司_202111246299.5 

申请/专利权人:北航(四川)西部国际创新港科技有限公司

申请日:2021-10-26

公开(公告)日:2024-03-15

公开(公告)号:CN114020013B

主分类号:G05D1/695

分类号:G05D1/695;G05D109/20

优先权:

专利状态码:有效-授权

法律状态:2024.03.15#授权;2022.02.25#实质审查的生效;2022.02.08#公开

摘要:本发明提供一种基于深度强化学习的无人机编队避撞方法,包括:明确训练目标是输出使得无人机能够自主避撞飞行的策略,通过设置不同的约束条件使得无人机能够保持编队;在仿真环境中训练无人机,通过选择不同行为设置不同的奖励值来生成一条基于避撞行为的策略,记录无人机的各种状态信息和避撞策略;采用循环神经网络中的LSTM方式处理外部的环境信息,再结合无人机的状态信息,在初始策略的基础上进行训练;在避撞的基础上添加不同的约束条件使得无人机在避免队间碰撞的基础上保持一定的队形进行飞行,并通过模型不断运行优化。本发明实现无人机避撞和编队的有效统一,可以有效地整合资源,并且可以实时调整个体的行为来获取最优的避撞行为。

主权项:1.一种基于深度强化学习的无人机编队避撞方法,其特征在于,包括以下步骤:步骤一:选择深度强化学习模型作为主体框架,然后根据行业成熟实验设置初始参数,明确训练目标是输出使得无人机能够自主避撞飞行的策略,并在此基础上通过设置不同的约束条件使得无人机能够保持编队;步骤一中,环境中包括领导者、追随者和障碍物,分别通过上标L,F,O进行表示;在t时刻无人机的状态空间表示为st,行为空间可表示为at,训练环境中的其他参数为:t表示时间,Δt表示时间步长,表示无人机在t时刻的位置,表示无人机在t时刻的速度,r为占用半径,pg=[pgx,pgy]表示目标位置,vpref为期望速度,θt为航向角度,为跟随者的状态空间,为领导者的状态空间,为障碍物的状态空间;其在t时刻的状态信息st表示为其中表示无人机可以观测到的状态信息;表示无人机无法观测到的隐藏状态信息;对于无人机的行为at,假设无人机收到控制指令后可以迅速做出反应,设定训练的目标是设计追随者的策略π:来选择适当的行动来保持队形和避开障碍物;在学习结构中,转化为一个目标函数和一组约束的优化问题,目标函数是多目标函数的一种形式,由跟随者到达目标所需要的时间tg和保持编队所累积的误差组成;同时,该约束条件中也包含避撞问题;编队避撞的目标函数如下所示: 式1.2中,表示环境中的不包含追随者的其他无人机,Ht表示追随者相对于领导者的期望相对偏移向量;1.2表示避免碰撞的约束条件,1.3表示到达目标地点的约束条件,1.4表示无人机的运动学约束;步骤二:通过模仿学习,在仿真环境中训练无人机,使得无人机模仿人类的选择行为进行运行,通过选择不同行为设置不同的奖励值来逐渐生成一条基于避撞行为的策略,然后记录无人机的各种状态信息和避撞策略,并做一定的存储,将其作为后续学习模型的输入信息;步骤二具体的包括以下过程:首先,定义无人机的联合状态空间其中表示所有追随者的可观测空间,表示障碍物的可观测空间;其次,设计一个值网络来估计状态空间的值,值网络的目的是找到最优的值函数,值函数的定义如下所示: 式1.5中,表示在t时刻所获取的奖励,γ表示折扣因子;对于最优策略π*:从值函数中进行迭代获取: 式1.6中表示时间t和t+Δt之间的转移概率;最后,基于强化学习的思想将采用队形评价函数来解决队形控制问题,用于队形质量的评价和队形奖励的计算,实时反映编队轨迹的误差;把目标位置和实际位置之间的欧氏距离作为输入;构造的针对编队的奖励函数定义为: 式1.7中,表示在时刻t所形成的编队误差值;避撞的奖励函数表示如下: 式1.8中表示追随者和其他无人机之间的最小距离;综合式1.7和式1.8得到完整的奖励函数Rt为: 步骤三:通过采用循环神经网络中的LSTM方式处理外部的环境信息,再结合步骤二中的无人机自己的状态信息,在初始策略的基础上进行训练,训练的过程中通过采用二阶动力学模型,调整无人机的速度,以便获取平稳的速度变化,训练的期望值是无人机能够以较短的路径抵达目标位置;步骤三中,所述的二阶动力学模型为: 式1.10中,和分别表示追随者的位置、速度和控制输入向量;与此相对,和表示领导者的位置和速度向量;根据所需要维持的编队队形,追随者应该与领导者保持一定的距离,Hp=[Hx,Hy]T表示相对于领导者追随者所需要保持的相对偏移向量;假设ζF=[PFT,VFT]T表示追随者的位置和速度,ζL=[PLT,VLT]T表示领导者的位置和速度,两者的相对偏移向量为则对于任意给定的初始状态追随者和领导者保持队形的条件为: 根据控制条件假设如下控制协议,其中,k1,k20:1.12;步骤四:在避撞的基础上添加不同的约束条件使得无人机在避免队间碰撞的基础上保持一定的队形进行飞行,并通过模型不断运行优化,期望输出一条灵活的、保持队形的、并能够在执行避撞行为后回归正确路径的飞行策略。

全文数据:

权利要求:

百度查询: 北航(四川)西部国际创新港科技有限公司 一种基于深度强化学习的无人机编队避撞方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。