【发明授权】一种基于集群影响度的战场博弈策略强化学习训练方法_南京大学_202110877724.4

导航：龙图腾网> 最新专利技术> 一种基于集群影响度的战场博弈策略强化学习训练方法_南京大学_202110877724.4

申请/专利权人：南京大学

申请日：2021-08-01

公开（公告）日：2024-03-19

公开（公告）号：CN113705828B

主分类号：G06F30/27

分类号：G06F30/27;G06N20/00

优先权：

专利状态码：有效-授权

法律状态：2024.03.19#授权;2021.12.14#实质审查的生效;2021.11.26#公开

摘要：本发明提供的一种基于集群影响度的战场博弈策略强化学习训练方法，通过集群影响度的分析结果并结合强化学习技术，可以有效克服开放战场环境具有的作战单位数目大、战争迷雾等挑战，并通过采用强化学习进行交叉训练保证决策模型可以不断提高自身决策水平，有效应对开放战场环境学习困难的问题，有助于军事战场中的人机协同决策等情况，可广泛应用于局域作战、反恐等领域的决策问题。

主权项：1.一种基于集群影响度的战场博弈策略强化学习训练方法，其特征在于，包括：步骤1构建以神经网络为基础的强化学习策略模型，作为敌方策略模型和我方策略模型，并分别设置敌我双方策略模型的初始化参数；步骤2设一个战场空间单元内属于同一阵营的所有作战单位为一个集群，按照当前战场的战场空间单元的划分，以及当前战场中我方和敌方的所有作战单位的分布，对我方和敌方分别构建多个集群；对于每个集群，根据其包含的各作战单位的作战能力建立该集群对整个战场胜负影响的集群影响度；步骤3结合我方观察范围内的敌方集群的影响度与我方各作战单位的信息，形成当前我方策略模型强化学习的输入状态，完成状态到动作的映射；步骤4根据下一时刻的集群影响度的分析结果计算集群压制奖赏，结合战损奖赏得到我方策略模型的总即时奖赏，并将“状态-动作-奖赏”元组加入训练样本集；步骤5战场博弈对局结束后，根据博弈对抗得到的训练样本计算我方策略模型强化学习的损失函数，并通过梯度下降方法更新优化我方策略模型；步骤6在预设的最大交替训练次数范围内，每隔一定轮数对当前训练的我方策略模型测试其胜率，当我方策略模型满足阶段训练目标后，冻结其学习参数，进入下一步；步骤7将当前待训练的敌方策略模型转换为我方策略模型，将步骤6中冻结学习参数的我方策略模型作为对手，进行敌我双方的身份转换，重复执行步骤2至步骤6的训练过程，得到优化的敌我双方战场博弈的策略模型。

全文数据：

权利要求：

百度查询：南京大学一种基于集群影响度的战场博弈策略强化学习训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

下一篇：管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

相关技术

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种洗涤设备_重庆海尔洗衣机有限公司_202321535727.0

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

龙图腾网&IPTOP

【发明授权】一种基于集群影响度的战场博弈策略强化学习训练方法_南京大学_202110877724.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务