买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于集群影响度的战场博弈策略强化学习训练方法_南京大学_202110877724.4 

申请/专利权人:南京大学

申请日:2021-08-01

公开(公告)日:2024-03-19

公开(公告)号:CN113705828B

主分类号:G06F30/27

分类号:G06F30/27;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2021.12.14#实质审查的生效;2021.11.26#公开

摘要:本发明提供的一种基于集群影响度的战场博弈策略强化学习训练方法,通过集群影响度的分析结果并结合强化学习技术,可以有效克服开放战场环境具有的作战单位数目大、战争迷雾等挑战,并通过采用强化学习进行交叉训练保证决策模型可以不断提高自身决策水平,有效应对开放战场环境学习困难的问题,有助于军事战场中的人机协同决策等情况,可广泛应用于局域作战、反恐等领域的决策问题。

主权项:1.一种基于集群影响度的战场博弈策略强化学习训练方法,其特征在于,包括:步骤1构建以神经网络为基础的强化学习策略模型,作为敌方策略模型和我方策略模型,并分别设置敌我双方策略模型的初始化参数;步骤2设一个战场空间单元内属于同一阵营的所有作战单位为一个集群,按照当前战场的战场空间单元的划分,以及当前战场中我方和敌方的所有作战单位的分布,对我方和敌方分别构建多个集群;对于每个集群,根据其包含的各作战单位的作战能力建立该集群对整个战场胜负影响的集群影响度;步骤3结合我方观察范围内的敌方集群的影响度与我方各作战单位的信息,形成当前我方策略模型强化学习的输入状态,完成状态到动作的映射;步骤4根据下一时刻的集群影响度的分析结果计算集群压制奖赏,结合战损奖赏得到我方策略模型的总即时奖赏,并将“状态-动作-奖赏”元组加入训练样本集;步骤5战场博弈对局结束后,根据博弈对抗得到的训练样本计算我方策略模型强化学习的损失函数,并通过梯度下降方法更新优化我方策略模型;步骤6在预设的最大交替训练次数范围内,每隔一定轮数对当前训练的我方策略模型测试其胜率,当我方策略模型满足阶段训练目标后,冻结其学习参数,进入下一步;步骤7将当前待训练的敌方策略模型转换为我方策略模型,将步骤6中冻结学习参数的我方策略模型作为对手,进行敌我双方的身份转换,重复执行步骤2至步骤6的训练过程,得到优化的敌我双方战场博弈的策略模型。

全文数据:

权利要求:

百度查询: 南京大学 一种基于集群影响度的战场博弈策略强化学习训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。