【发明授权】一种基于深度强化学习的无人机编队避撞方法_北航(四川)西部国际创新港科技有限公司_202111246299.5

申请/专利权人：北航(四川)西部国际创新港科技有限公司

申请日：2021-10-26

公开（公告）日：2024-03-15

公开（公告）号：CN114020013B

主分类号：G05D1/695

分类号：G05D1/695;G05D109/20

优先权：

专利状态码：有效-授权

法律状态：2024.03.15#授权;2022.02.25#实质审查的生效;2022.02.08#公开

摘要：本发明提供一种基于深度强化学习的无人机编队避撞方法，包括：明确训练目标是输出使得无人机能够自主避撞飞行的策略，通过设置不同的约束条件使得无人机能够保持编队；在仿真环境中训练无人机，通过选择不同行为设置不同的奖励值来生成一条基于避撞行为的策略，记录无人机的各种状态信息和避撞策略；采用循环神经网络中的LSTM方式处理外部的环境信息，再结合无人机的状态信息，在初始策略的基础上进行训练；在避撞的基础上添加不同的约束条件使得无人机在避免队间碰撞的基础上保持一定的队形进行飞行，并通过模型不断运行优化。本发明实现无人机避撞和编队的有效统一，可以有效地整合资源，并且可以实时调整个体的行为来获取最优的避撞行为。

主权项：1.一种基于深度强化学习的无人机编队避撞方法，其特征在于，包括以下步骤：步骤一：选择深度强化学习模型作为主体框架，然后根据行业成熟实验设置初始参数，明确训练目标是输出使得无人机能够自主避撞飞行的策略，并在此基础上通过设置不同的约束条件使得无人机能够保持编队；步骤一中，环境中包括领导者、追随者和障碍物，分别通过上标L，F，O进行表示；在t时刻无人机的状态空间表示为st，行为空间可表示为at，训练环境中的其他参数为：t表示时间，Δt表示时间步长，表示无人机在t时刻的位置，表示无人机在t时刻的速度，r为占用半径，pg＝[pgx,pgy]表示目标位置，vpref为期望速度，θt为航向角度，为跟随者的状态空间，为领导者的状态空间，为障碍物的状态空间；其在t时刻的状态信息st表示为其中表示无人机可以观测到的状态信息；表示无人机无法观测到的隐藏状态信息；对于无人机的行为at，假设无人机收到控制指令后可以迅速做出反应，设定训练的目标是设计追随者的策略π:来选择适当的行动来保持队形和避开障碍物；在学习结构中，转化为一个目标函数和一组约束的优化问题，目标函数是多目标函数的一种形式，由跟随者到达目标所需要的时间tg和保持编队所累积的误差组成；同时，该约束条件中也包含避撞问题；编队避撞的目标函数如下所示：式1.2中，表示环境中的不包含追随者的其他无人机，Ht表示追随者相对于领导者的期望相对偏移向量；1.2表示避免碰撞的约束条件，1.3表示到达目标地点的约束条件，1.4表示无人机的运动学约束；步骤二：通过模仿学习，在仿真环境中训练无人机，使得无人机模仿人类的选择行为进行运行，通过选择不同行为设置不同的奖励值来逐渐生成一条基于避撞行为的策略，然后记录无人机的各种状态信息和避撞策略，并做一定的存储，将其作为后续学习模型的输入信息；步骤二具体的包括以下过程：首先，定义无人机的联合状态空间其中表示所有追随者的可观测空间，表示障碍物的可观测空间；其次，设计一个值网络来估计状态空间的值，值网络的目的是找到最优的值函数，值函数的定义如下所示：式1.5中，表示在t时刻所获取的奖励，γ表示折扣因子；对于最优策略π*:从值函数中进行迭代获取：式1.6中表示时间t和t+Δt之间的转移概率；最后，基于强化学习的思想将采用队形评价函数来解决队形控制问题，用于队形质量的评价和队形奖励的计算，实时反映编队轨迹的误差；把目标位置和实际位置之间的欧氏距离作为输入；构造的针对编队的奖励函数定义为：式1.7中，表示在时刻t所形成的编队误差值；避撞的奖励函数表示如下：式1.8中表示追随者和其他无人机之间的最小距离；综合式1.7和式1.8得到完整的奖励函数Rt为：步骤三：通过采用循环神经网络中的LSTM方式处理外部的环境信息，再结合步骤二中的无人机自己的状态信息，在初始策略的基础上进行训练，训练的过程中通过采用二阶动力学模型，调整无人机的速度，以便获取平稳的速度变化，训练的期望值是无人机能够以较短的路径抵达目标位置；步骤三中，所述的二阶动力学模型为：式1.10中，和分别表示追随者的位置、速度和控制输入向量；与此相对，和表示领导者的位置和速度向量；根据所需要维持的编队队形，追随者应该与领导者保持一定的距离，Hp＝[Hx,Hy]T表示相对于领导者追随者所需要保持的相对偏移向量；假设ζF＝[PFT,VFT]T表示追随者的位置和速度，ζL＝[PLT,VLT]T表示领导者的位置和速度，两者的相对偏移向量为则对于任意给定的初始状态追随者和领导者保持队形的条件为：根据控制条件假设如下控制协议，其中，k1，k20：1.12；步骤四：在避撞的基础上添加不同的约束条件使得无人机在避免队间碰撞的基础上保持一定的队形进行飞行，并通过模型不断运行优化，期望输出一条灵活的、保持队形的、并能够在执行避撞行为后回归正确路径的飞行策略。

全文数据：

权利要求：

百度查询：北航(四川)西部国际创新港科技有限公司一种基于深度强化学习的无人机编队避撞方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种冷渣机料渣前置破碎防卡料机构_青岛奥利斯电力设备有限公司_202322163598.3

下一篇：一种塑粉加工压制成型一体化生产设备_常州伟冠塑粉制造有限公司_202322584095.3

相关技术

一种冷渣机料渣前置破碎防卡料机构_青岛奥利斯电力设备有限公司_202322163598.3

一种塑粉加工压制成型一体化生产设备_常州伟冠塑粉制造有限公司_202322584095.3

一种醋酸酐含量检测装置_山东嘉驰新材料股份有限公司_202322220520.0

一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

一种叠瓦电池片检测用工装_江苏龙恒新能源有限公司_202322351795.8

一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

电池包和用电装置_蔚来电池科技(安徽)有限公司_202322200695.5

一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种玉米种植用病虫害防治装置_黄金双_202322446508.1

一种天然气管道不停输开孔装置_盐城新奥燃气有限公司_202322202238.X

编队相关技术

一种适用于多星编队的分布式多源信息融合系统_上海卫星工程研究所_202010786767.7

一种编队感知的智能网联汽车协同变道方法_西南交通大学_202410156226.4

一种车辆编队后车检测方法、终端设备及存储介质_厦门金龙联合汽车工业有限公司_202210498619.4

多图形构型的多智能体编队控制方法和相关产品_中国科学院数学与系统科学研究院_202410291076.8

一种数据驱动的异构车辆事件触发编队控制方法_吉林大学_202410022648.2

一种智慧型车辆编队方法、装置、电子设备及存储介质_中车工业研究院有限公司_201911348713.6

车辆编队中轻量级、隐私保护的领队车辆选择系统及方法_暨南大学_202310894676.9

用于异构集群系统的异步约束输出编队跟踪方法及系统_北京航空航天大学_202410153127.0

一种有向交互拓扑下无速度测量的四旋翼编队控制方法_湖南大学_202111447691.6

基于原子钟的编队卫星时频一致性控制方法和系统_上海卫星工程研究所_202311845551.3

无人机相关技术

一种无人机调度指挥车_河南云洹网联无人机科技有限公司_202322824296.6

一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

一种无人机旋转压力喷头_江苏沃得高新农业装备有限公司_202322186653.0

无人机场安装固定装置_湖北图途信息技术有限公司_202322736689.1

一种无人机侦测系统及控制方法_武汉能钠智能装备技术股份有限公司四川省成都市分公司_202410027837.9

一种双向四旋翼无人机结构_安徽云翼航空技术有限公司_202322718225.8

一种智能化的多功能农业灌溉用植保无人机_海南宝秀节水科技股份有限公司陕西分公司_202211272497.3

一种无人机充电系统及充电方法_山东智航智能装备有限公司_202310294431.2

一种环境监测无人机用后清理设备_湖北时光杖电子技术股份有限公司_202322164090.5

基于无人机的大范围气体动态检测装置及其检测方法_环境保护部南京环境科学研究所_201811508812.1

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

用于工业机器人减速机故障学习方法_重庆工业职业技术学院_202310128261.0

一种分布式学习索引模型的构建方法及应用_华中科技大学_202111095824.8

基于深度学习的LED光源识别方法、装置、设备及介质_湖北经济学院_202410088953.1

龙图腾网&IPTOP

【发明授权】一种基于深度强化学习的无人机编队避撞方法_北航(四川)西部国际创新港科技有限公司_202111246299.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务