买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种数据驱动的自适应动态规划空战决策方法_四川大学_202310861633.0 

申请/专利权人:四川大学

申请日:2023-07-13

公开(公告)日:2024-04-16

公开(公告)号:CN116880186B

主分类号:G05B13/04

分类号:G05B13/04

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2023.10.31#实质审查的生效;2023.10.13#公开

摘要:本发明公开了一种数据驱动的自适应动态规划空战决策方法,包括以下步骤:S1,建立无人机追逃问题系统模型;S2,采用无模型自适应动态规划求解上述无人机追逃问题;采用离线神经网络模型训练算法获得红方无人机和蓝方无人机实时控制率,并实时收集红方控制率信息和红蓝双方状态信息;S4,通过在线模型训练算法在线更新神经网络,实现红方无人机和蓝方无人机在“追踪‑逃逸”问题中的自适应动态规划的空战决策。本发明结合了离线训练和在线训练的优点,提升了本发明的在线自适应调整策略的能力。且本发明不依赖于飞行器系统模型,具有很强的泛化能力,可以推广的多个应用场景。

主权项:1.一种数据驱动的自适应动态规划空战决策方法,其特征在于,包括以下步骤:S1,假定对战双方无人机为红方无人机和蓝方无人机;分别以红方追击-蓝方逃逸和红方逃逸-蓝方追击问题建立无人机追逃问题系统模型;其中,对红方追击-蓝方逃逸追逃问题系统模型进行处理,包括:S11,将无人机的非线性连续状态空间方程简记为: 其中,表示红方飞行器状态向量,表示红方飞行器状态向量x关于时间的微分,表示红方飞行器控制向量,Fx,Gx分别为 S12,定义性能指标函数为: 其中,Qx,t为与状态相关的指标函数,Ru,t为与控制量相关的指标函数;S13,建立无人机角度优势函数,设红方无人机速度矢量为: 蓝方无人机速度矢量为: 红方无人机对蓝方蓝方无人机距离矢量为其几何关系为 得到角度优势函数:Qα=cαr+1-cαb9其中c=αr+αb2π;S14,定义距离优势函数为: 其中为正定矩阵;红方的状态指标函数可表示为:Qx,t=Qd+Q2Qα11其中Q2为权重系数;S15,定义控制器指标函数为: 其中,为控制量权重系数,为无人机稳定飞行下的控制量;S2,采用无模型自适应动态规划求解上述无人机追逃问题,并采用有界探索信号对策略进行改进;具体实现方法如下:定义有界探索信号ue,将红方无人机系统模型5可改写为: 则性能指标函数为: 则性能指标函数式7关于时间的导数,表示为: 性能指标函数式16求的极小值时,满足如下贝尔曼方程: 其中rj=Qx,t+Ru,t;结合式17和式18,可以得到: 真实系统的最优控制量为: 通过式20反解出G,带入式19得到: 将式21两端从t0到t进行积分,得到: 采用神经网络来近似代价函数和控制输入,即: 其中,分别是评价网络和执行网络的理想神经网络权重;L1,L2分别是评价网络和执行网络的隐藏层神经元数量;分别是评价网络和执行网络的神经网络激活函数;分别是评价网络和执行网络的重建误差;令评价网络和执行网络的估计值为: 其中,分别是理想神经网络权重Wc,Wa的估计值;将式24代入式22可得残差项误差为: 其中为改进策略得到的控制量,其表达式为: 其中Ω为控制量的探索集合,由添加有界随机探索信号得到,且通过最小二乘算法优化即: 通过最小二乘算法优化即: S3,采用离线神经网络模型训练算法获得红方无人机和蓝方无人机实时控制率,并实时收集红方控制率信息和红蓝双方状态信息;其中,离线神经网络模型训练算法包括如下步骤:S31:通过给定不同的初始状态,可得到数据集{xkt0},初始化S32:根据式26得到状态对应的控制量,即数据集S33:利用数据集根据式27更新得到根据式28更新得到S34:如果或则终止算法;否则j=j+1,跳转步骤S32,其中∈a、∈c为收敛精度;S4,通过在线模型训练算法在线更新神经网络,实现红方无人机和蓝方无人机在“追踪-逃逸”问题中的自适应动态规划的空战决策。

全文数据:

权利要求:

百度查询: 四川大学 一种数据驱动的自适应动态规划空战决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。