买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于并行自我博弈的空战机动方法_西北工业大学_202110364109.3 

申请/专利权人:西北工业大学

申请日:2021-04-03

公开(公告)日:2024-02-02

公开(公告)号:CN113095481B

主分类号:G06N5/04

分类号:G06N5/04;G06N3/045;G06N3/08;G06F30/20

优先权:

专利状态码:有效-授权

法律状态:2024.02.02#授权;2021.07.27#实质审查的生效;2021.07.09#公开

摘要:本发明公开了一种基于并行自我博弈的空战机动方法,首先构建无人机机动模型,再构建红蓝运动态势获取模型,描述红蓝作战相对态势;然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数,接下来构建基于SAC算法的机动决策模型结构,通过空战对抗实现并行自我博弈训练SAC算法,最后测试训练得到的网络,显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平,增大决策模型作战成功率。

主权项:1.一种基于并行自我博弈的空战机动方法,其特征在于,包括以下步骤:步骤S1:构建无人机机动模型;设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;将无人机视为质点,无人机运动方程如下所示: 其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θt,θt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,为无人机航向角变化量;步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;红蓝运动态势获取模型获取的作战双方的相对态势用d与q描述,其中,表示红方与蓝方之间的位置向量,方向由红方指向蓝方,d表示红方与蓝方距离,q表示相对方位角,为红方速度向量与距离向量的夹角;蓝方相对于红方的作战态势用d、qr表示,红方相对于蓝方的作战态势用d及qb表示;表示红方与蓝方之间的位置向量,方向由红方指向蓝方,表示蓝方与红方之间的位置向量,方向由蓝方指向红方,qr表示蓝方相对红方的相对方位角,qb表示红方相对蓝方的相对方位角; d、qr与qb的计算如下: 其中,为红方的位置向量,为红方的速度向量,vr为红方的速度大小,θr为红方的俯仰角,为红方的航向角;为蓝方的位置向量,为蓝方的速度向量,vb为蓝方的速度大小,θb为蓝方的俯仰角,为蓝方的航向角;步骤S3:依据马尔科夫过程构建红蓝双方状态空间Sr,Sb,红蓝双方动作空间Ar,Ab,奖惩函数R;定义红方无人机状态空间为蓝方无人机状态空间为红方无人机动作空间为蓝方无人机动作空间为奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;距离奖惩函数Rd为:Rd1=-d5*Dmax Rd=Rd1+Rd2其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;角度奖惩函数Rq为:Rq1=-q180Rq2=3,ifq<qmaxRq=Rq1+Rq2其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角;步骤S4:构建基于SAC算法的机动决策模型结构;基于SAC算法的机动决策模型采用SAC算法生成红蓝双方机动控制量,用于红蓝双方机动;SAC算法通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络和两个TargetSoft-Q网络和其中,θ,均表示对应网络的权重;Actor神经网络πθ的输入为红方状态值或蓝方状态值输出为均值μμr,μb和方差σσr,σb;噪声τ从标准正态分布采样得到;由均值μ、方差σ和噪声τ生成红方动作或蓝方动作并通过tanh函数将动作或限制在-1,1之间,动作生成过程如下所示: Soft-Q神经网络和的输入为状态值和动作值,输出为神经网络预测的Q值;TargetSoft-Q神经网络和与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,TargetSoft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于TargetSoft-Q网络;Actor、Soft-Q与TargetSoft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数;步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;初始化多组作战双方时,初始位置在作战区域内,设定初始速度范围,初始俯仰角范围,初始航向角范围;通过空战对抗实现并行自我博弈训练SAC算法的步骤为:步骤S51:定义并行自我博弈环境个数env_num,定义批训练样本组数batch_size,定义最大仿真步长N,初始化step=1,初始化env=1,初始化作战双方的初始态势,获取红方的初始状态及蓝方的初始状态步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重初始化策略网络πθ与两个Soft-Q网络令将作为网络权重初始化TargetSoft-Q网络步骤S53:将红方状态输入至Actor网络,输出均值μr和方差σr,由步骤S4动作生成过程得到符合步骤S3动作空间Ar的动作红方执行动作后获取新状态并根据步骤S3奖惩函数R获得奖惩值rtr;将蓝方状态输入至Actor网络,输出均值μb和方差σb,由步骤S4动作生成过程得到符合步骤S3中动作空间Ab的动作蓝方执行动作后获取新状态并根据步骤S3中奖惩函数R获得奖惩值rtb;将元组及元组存储至经验池M;步骤S54:判断env是否大于env_num,若是,则继续执行步骤S55;否则令env加1,转至执行步骤S51;步骤S55:当经验池内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,并更新正则化系数α;步骤S56:判定step是否大于N,若是,则执行步骤S57;否则令step加1,转至执行步骤S53;步骤S57:判定算法是否收敛或是否达到训练回合,若是,则结束训练,获得训练结束后的SAC算法模型;否则转至执行步骤S51;步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率;步骤S61:初始化作战双方的初始态势,获取红蓝双方的初始状态步骤S62:分别记录状态将状态输入至训练完成的SAC算法模型的Actor神经网络,输出红蓝双方的动作双方执行动作后获取新状态步骤S63:判定作战是否成功,若是,则结束;否则令并转至执行步骤S62;步骤S64:依据所记录的状态画出作战双方的作战轨迹;步骤S65:初始化n组作战双方的初始态势,分别对每组作战双方执行步骤S62至S63,记录最终是否作战成功,最终作战成功的次数记为num;步骤S66:计算num,即为最终的作战成功率,并以此表示决策模型的泛化能力。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于并行自我博弈的空战机动方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。