【发明授权】一种基于并行自我博弈的空战机动方法_西北工业大学_202110364109.3

导航：龙图腾网> 最新专利技术> 一种基于并行自我博弈的空战机动方法_西北工业大学_202110364109.3

申请/专利权人：西北工业大学

申请日：2021-04-03

公开（公告）日：2024-02-02

公开（公告）号：CN113095481B

主分类号：G06N5/04

分类号：G06N5/04;G06N3/045;G06N3/08;G06F30/20

优先权：

专利状态码：有效-授权

法律状态：2024.02.02#授权;2021.07.27#实质审查的生效;2021.07.09#公开

摘要：本发明公开了一种基于并行自我博弈的空战机动方法，首先构建无人机机动模型，再构建红蓝运动态势获取模型，描述红蓝作战相对态势；然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数，接下来构建基于SAC算法的机动决策模型结构，通过空战对抗实现并行自我博弈训练SAC算法，最后测试训练得到的网络，显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平，增大决策模型作战成功率。

主权项：1.一种基于并行自我博弈的空战机动方法，其特征在于，包括以下步骤：步骤S1：构建无人机机动模型；设OXYZ坐标系为无人机所在的三维空间坐标系，其中原点O表示无人机作战区域中心，X轴指向正北方向，Z轴指向正东方向，Y轴指向垂直向上的方向；将无人机视为质点，无人机运动方程如下所示：其中t为当前时刻，dT为无人机的积分步长，[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量，Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小，俯仰角θt,θt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角，航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角，dv为无人机加速度大小，dθ为无人机俯仰角变化量，为无人机航向角变化量；步骤S2：定义我方无人机为红方，敌方无人机为蓝方；初始化红蓝双方，构建红蓝运动态势获取模型，描述红蓝作战相对态势；红蓝运动态势获取模型获取的作战双方的相对态势用d与q描述，其中，表示红方与蓝方之间的位置向量，方向由红方指向蓝方，d表示红方与蓝方距离，q表示相对方位角，为红方速度向量与距离向量的夹角；蓝方相对于红方的作战态势用d、qr表示，红方相对于蓝方的作战态势用d及qb表示；表示红方与蓝方之间的位置向量，方向由红方指向蓝方，表示蓝方与红方之间的位置向量，方向由蓝方指向红方，qr表示蓝方相对红方的相对方位角，qb表示红方相对蓝方的相对方位角； d、qr与qb的计算如下：其中，为红方的位置向量，为红方的速度向量，vr为红方的速度大小，θr为红方的俯仰角，为红方的航向角；为蓝方的位置向量，为蓝方的速度向量，vb为蓝方的速度大小，θb为蓝方的俯仰角，为蓝方的航向角；步骤S3：依据马尔科夫过程构建红蓝双方状态空间Sr,Sb，红蓝双方动作空间Ar,Ab，奖惩函数R；定义红方无人机状态空间为蓝方无人机状态空间为红方无人机动作空间为蓝方无人机动作空间为奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成，R＝w1*Rd+w2*Ra，其中w1,w2为距离奖惩与角度奖惩的权重；距离奖惩函数Rd为：Rd1＝-d5*Dmax Rd＝Rd1+Rd2其中，Rd1为距离连续奖惩值，Rd2为距离稀疏奖惩值，Dmin为红方所载导弹的最小攻击距离，Dmax为红方所载导弹的最大攻击距离；角度奖惩函数Rq为：Rq1＝-q180Rq2＝3,ifq＜qmaxRq＝Rq1+Rq2其中，Rq1表示角度连续奖惩值，Rq2表示角度稀疏奖惩值，qmax表示红方所载导弹的最大离轴发射角；步骤S4：构建基于SAC算法的机动决策模型结构；基于SAC算法的机动决策模型采用SAC算法生成红蓝双方机动控制量，用于红蓝双方机动；SAC算法通过神经网络实现，包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络和两个TargetSoft-Q网络和其中，θ，均表示对应网络的权重；Actor神经网络πθ的输入为红方状态值或蓝方状态值输出为均值μμr,μb和方差σσr,σb；噪声τ从标准正态分布采样得到；由均值μ、方差σ和噪声τ生成红方动作或蓝方动作并通过tanh函数将动作或限制在-1，1之间，动作生成过程如下所示： Soft-Q神经网络和的输入为状态值和动作值，输出为神经网络预测的Q值；TargetSoft-Q神经网络和与Soft-Q神经网络结构相同但网络权重不同；Soft-Q神经网络用于产生预测的Q值以及选取动作，TargetSoft-Q神经网络产生目标Q值以及评估动作；Soft-Q神经网络权重实时优化更新，且经过多次迭代后将权重复制于TargetSoft-Q网络；Actor、Soft-Q与TargetSoft-Q网络均为含有l层隐藏层的全连接神经网络，各隐藏层神经元个数均为n，激活函数为Relu函数；步骤S5：初始化多组作战双方，定义实验参数，多组作战双方使用同一个机动决策模型及同一个经验池，通过空战对抗实现并行自我博弈训练SAC算法；初始化多组作战双方时，初始位置在作战区域内，设定初始速度范围，初始俯仰角范围，初始航向角范围；通过空战对抗实现并行自我博弈训练SAC算法的步骤为：步骤S51：定义并行自我博弈环境个数env_num，定义批训练样本组数batch_size，定义最大仿真步长N，初始化step＝1，初始化env＝1，初始化作战双方的初始态势，获取红方的初始状态及蓝方的初始状态步骤S52：随机生成Actor网络权重θ,Soft-Q网络权重初始化策略网络πθ与两个Soft-Q网络令将作为网络权重初始化TargetSoft-Q网络步骤S53：将红方状态输入至Actor网络，输出均值μr和方差σr，由步骤S4动作生成过程得到符合步骤S3动作空间Ar的动作红方执行动作后获取新状态并根据步骤S3奖惩函数R获得奖惩值rtr；将蓝方状态输入至Actor网络，输出均值μb和方差σb，由步骤S4动作生成过程得到符合步骤S3中动作空间Ab的动作蓝方执行动作后获取新状态并根据步骤S3中奖惩函数R获得奖惩值rtb；将元组及元组存储至经验池M；步骤S54：判断env是否大于env_num，若是，则继续执行步骤S55；否则令env加1，转至执行步骤S51；步骤S55：当经验池内经验组数大于batch_size时，随机取出batch_size组经验，对SAC算法中的Actor及Soft-Q神经网络的参数进行更新，并更新正则化系数α；步骤S56：判定step是否大于N，若是，则执行步骤S57；否则令step加1，转至执行步骤S53；步骤S57：判定算法是否收敛或是否达到训练回合，若是，则结束训练，获得训练结束后的SAC算法模型；否则转至执行步骤S51；步骤S6：随机初始化作战双方，测试训练得到的网络，显示作战轨迹；随机初始化多组作战双方，测试训练得到的网络，统计作战成功率；步骤S61：初始化作战双方的初始态势，获取红蓝双方的初始状态步骤S62：分别记录状态将状态输入至训练完成的SAC算法模型的Actor神经网络，输出红蓝双方的动作双方执行动作后获取新状态步骤S63：判定作战是否成功，若是，则结束；否则令并转至执行步骤S62；步骤S64：依据所记录的状态画出作战双方的作战轨迹；步骤S65：初始化n组作战双方的初始态势，分别对每组作战双方执行步骤S62至S63，记录最终是否作战成功，最终作战成功的次数记为num；步骤S66：计算num，即为最终的作战成功率，并以此表示决策模型的泛化能力。

全文数据：

权利要求：

百度查询：西北工业大学一种基于并行自我博弈的空战机动方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

下一篇：一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

相关技术

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

CNC加工用快速换线治具_东莞华清光学科技有限公司_202322418777.7

一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

高温堆直流调试防干扰回路_华能山东石岛湾核电有限公司_202322501565.5

一种装配式桥梁用避震结构_浙江天晟建材股份有限公司_202322593564.8

一种玉米种植用病虫害防治装置_黄金双_202322446508.1

一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

一种注塑机新型泵罩门板_恩格尔注塑机械(常州)有限公司_202322227242.1

一种天然气管道不停输开孔装置_盐城新奥燃气有限公司_202322202238.X

一种双卧轴连续式混凝土搅拌装置_广安金都混凝土有限公司_202322291527.1

空战相关技术

一种基于LQR近视距的无人机空战攻击方法_南通大学_202310951344.X

基于非线性预测控制的飞行器超视距空战机动决策方法_四川大学_202310771153.5

一种基于智能学习的空战对抗自主决策方法及系统_西安科为实业发展有限责任公司_202010306471.0

一种基于深度学习的无人机空战威胁评估方法_南京航空航天大学_202010895916.3

基于网络可解释性分析的空战规则生成方法和装置_北京航空航天大学_202310355227.7

一种智能空战决策方法、系统及电子设备_北京师范大学_202310889524.X

一种基于强化学习的空战控制方法_西安电子科技大学_202311649111.0

仿哈里斯鹰智能捕食优化的无人机空战机动决策方法_北京航空航天大学_202110995706.6

一种用于无人机空战决策的强化学习模型训练方法_中国科学院大学_202311723082.8

考虑飞机过失速机动的近距空战机动规划方法_四川大学_202311535650.1

博弈相关技术

一种考虑新能源消纳的区域能源聚合商博弈方法_国家电网有限公司_202110372632.0

基于博弈论和自适应跳跃的异构车载网络选择方法及系统_武汉科技大学_202210919836.6

基于博弈激励机制的VANET信任计算方法_重庆邮电大学_202410038598.7

一种基于博弈论的多元加速退化试验优化方法_吉林大学_202410042978.8

基于机器学习与博弈论的油井多层合采产量劈分方法_北京科技大学_202311385769.5

基于博弈的高效自动生成神经网络架构方法_浙江大学_202410019066.9

基于实时电价和博弈论的调度方法、系统、设备及介质_国网浙江省电力有限公司营销服务中心_202410067569.3

一种基于博弈策略的生成对抗网络轨迹隐私保护方法_辽宁工业大学_202410042911.4

一种人机控制权博弈车道保持鲁棒控制方法及系统_常熟理工学院_202311613439.7

基于迁移学习的多弹对抗博弈策略学习方法及系统_西安交通大学_202410049355.3

方法相关技术

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

模型剪枝方法、人脸识别模型训练方法及人脸识别方法_苏州元脑智能科技有限公司_202311803044.3

通信方法及装置_华为技术有限公司_202010617172.9

信息处理方法_丰田自动车株式会社_202311358127.6

通信方法及装置_华为技术有限公司_202311024020.8

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

冰箱及其控制方法_LG电子株式会社_202080061858.2

龙图腾网&IPTOP

【发明授权】一种基于并行自我博弈的空战机动方法_西北工业大学_202110364109.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务