买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于分布式A2C的多无人机追逃博弈方法及系统_华中科技大学_202311752787.2 

申请/专利权人:华中科技大学

申请日:2023-12-19

公开(公告)日:2024-03-19

公开(公告)号:CN117434968B

主分类号:G05D1/46

分类号:G05D1/46

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2024.02.09#实质审查的生效;2024.01.23#公开

摘要:本发明公开了一种基于分布式A2C的多无人机追逃博弈方法及系统,所述方法包括:利用图论构建多无人机追逃博弈模型;分别构造追逐无人机和逃逸无人机的局部误差变量;构建多无人机追逃博弈性能指标函数,将多无人机追逃博弈问题转化为耦合分布最小化问题,得到最优代价函数,基于最优代价函数构造理论最优控制策略;构建分布式A2C网络模型来模拟最优代价函数和理论最优控制策略,并设计优势函数指导控制策略的调整;训练分布式A2C网络模型,求解实际最优控制策略并执行。本发明将优势函数与决策‑评判架构相结合,并将其扩展至多无人机追逃博弈问题,通过不断优化控制策略,可以提高多无人机追逃博弈控制的稳定性。

主权项:1.一种基于分布式A2C的多无人机追逃博弈方法,其特征在于,所述方法包括:利用图论构建包含追逐无人机、逃逸无人机及逃逸目标的多无人机追逃博弈模型;分别建立追逐无人机和逃逸无人机的动力学系统模型,并分别基于追逐无人机、逃逸无人机及各自的邻居无人机构造追逐无人机和逃逸无人机的局部误差变量;基于追逐无人机和逃逸无人机的局部误差变量,构建多无人机追逃博弈性能指标函数,将多无人机追逃博弈问题转化为耦合分布最小化问题,得到最优代价函数,基于最优代价函数构造理论最优控制策略;构建分布式A2C网络模型来模拟最优代价函数和理论最优控制策略,并设计优势函数指导控制策略的调整;训练分布式A2C网络模型,求解实际最优控制策略并执行;所述分别建立追逐无人机和逃逸无人机的动力学系统模型具体包括:考虑由N个追逐无人机组成的互联系统,引入追逐无人机的未知非线性扰动和未知系统矩阵,建立追逐无人机的动力学系统模型: ;其中为追逐无人机的位置向量,为追逐无人机i的位置向量的导数,是追逐无人机i的控制输入向量;是追逐无人机的未知系统矩阵,是追逐无人机i的已知输入增益矩阵,为与追逐无人机的状态相关的未知非线性扰动;表示时间; N个追逐无人机去围捕逃逸无人机e,引入逃逸无人机的未知系统矩阵和未知非线性扰动,建立逃逸无人机e的动力学系统模型: ;其中是逃逸无人机的位置向量,是逃逸无人机的位置向量的导数,是逃逸无人机的控制输入向量;和分别是逃逸无人机的未知系统矩阵和已知输入增益矩阵,为与逃逸无人机的状态相关的未知非线性扰动;逃逸无人机在逃逸的过程中渐近跟踪逃逸目标的动力学系统模型,其中为逃逸目标的已知系统矩阵,为逃逸目标的位置向量,即逃逸无人机的位置向量渐近收敛至逃逸目标t的位置向量;所述分别基于追逐无人机、逃逸无人机及各自的邻居无人机构造追逐无人机和逃逸无人机的局部误差变量具体包括:引入追逐无人机与追逐无人机之间的位置偏移量、逃逸无人机与追逐无人机之间的位置偏移量,计算追逐无人机i相对于其邻居无人机j和逃逸无人机e的局部误差变量: ;其中,为追逐无人机j的位置向量,为逃逸无人机e和追逐无人机i之间的位置偏移量,为追逐无人机i和追逐无人机j之间的位置偏移量,为追逐无人机i对应的节点的邻居集,是追逐无人机i和追逐无人机j对应的节点之间的关联权重,为逃逸无人机e和追逐无人机i对应的节点之间的关联权重;是与边逃逸无人机e和逃逸目标t对应的节点之间的关联权重;引入逃逸无人机e和追逐无人机之间的位置偏移量,计算逃逸无人机e的局部误差变量: ;其中为增益,设追逐无人机1为唯一与逃逸无人机e交互的追逐无人机,为逃逸无人机e的节点和追逐无人机1对应的节点之间的关联权重;为逃逸无人机e和追逐无人机i之间的位置偏移量;逃逸无人机e的邻居集包括追逐无人机1和逃逸目标;为追逐无人机1的位置向量,为逃逸无人机e与追逐无人机1之间的位置偏移量;所述构建分布式A2C网络模型来模拟最优代价函数和理论最优控制策略具体包括:设和分别是追逐无人机i和逃逸无人机e的最优代价函数;设计评判网络以模拟最优代价函数,计算最优代价函数的估计值: ;其中,分别为追逐无人机i、逃逸无人机e的最优代价函数的估计值;和均为基函数集向量,和分别为追逐无人机i和逃逸无人机e的最优代价函数和的当前权重估计;设计决策网络以模拟理论最优控制策略,结合最优代价函数的估计值,计算得到理论最优控制策略的估计值,同时实现评判网络和决策网络之间的信息交互更新;其中,理论最优控制策略的估计值为: ;其中,为追逐无人机i的控制输入向量的估计值,为逃逸无人机e的控制输入向量的估计值,为追逐无人机i的加权度;分别计算逐无人机i和逃逸无人机e的HJB方程的误差: ;其中,为追逐无人机i的HJB方程的误差,为逃逸无人机e的HJB方程的误差;为追逐无人机j的控制输入向量的估计值,和分别为追逐无人机i和逃逸无人机e的学习回归变量;所述设计优势函数调整控制策略具体包括:追逐无人机i和逃逸无人机e的决策网络的优势函数分别为: ;其中,为追逐无人机i的优势函数,为逃逸无人机e的优势函数,T为时间间隔,为积分区间,s为积分变量;、分别为追逐无人机i、逃逸无人机e的评判网络的当前权重。

全文数据:

权利要求:

百度查询: 华中科技大学 一种基于分布式A2C的多无人机追逃博弈方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。