【发明公布】面向兵棋推演的智能决策方法、装置及存储介质_厦门渊亭信息科技有限公司_202410282120.9

申请/专利权人：厦门渊亭信息科技有限公司

申请日：2024-03-12

公开（公告）日：2024-05-10

公开（公告）号：CN118001744A

主分类号：A63F13/67

分类号：A63F13/67;A63F13/822;G06N3/045;G06N3/092

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.28#实质审查的生效;2024.05.10#公开

摘要：本发明提供了一种面向兵棋推演的多智能体强化学习智能决策方法、装置及存储介质，该方法包括：步骤S1，对兵棋推演场景进行建模；步骤S2，根据对兵棋推演场景的建模，构建兵棋推演场景的上下层分层决策网络；步骤S3，通过强化学习对上下层分层决策网络进行分层网络训练；其中，对上层决策网络针对所有多智能体采用集中式训练的方式进行训练；对下层决策网络针对各智能体采用独立训练的方式进行训练；步骤S4，利用完成训练的多智能体进行对战决策。针对兵棋推演这类具有高维状态空间、观测空间和动作空间的复杂训练场景，本发明实施例的技术方案提高了整体训练的效率，可以实现特定兵棋推演想定下的有效决策。

主权项：1.一种面向兵棋推演的多智能体强化学习智能决策方法，其特征在于，包括：步骤S1，对兵棋推演场景进行建模，包括对兵棋推演场景的智能体集合进行定义及对状态空间、观测空间和动作空间进行建模；步骤S2，根据对兵棋推演场景的建模，构建兵棋推演场景的上下层分层决策网络，其中，将上下层分层决策分别视为马尔可夫决策过程，所述上下层分层决策网络的决策结果一起用于形成环境所需的复合操作；其中，上层决策网络用于从任务集中为智能体选择可用的任务；下层决策网络用于根据上层决策网络选择的任务来选择智能体要执行的动作；步骤S3，通过强化学习对所述上下层分层决策网络进行分层网络训练；其中，对所述上层决策网络针对所有多智能体采用集中式训练的方式进行训练；对所述下层决策网络针对各智能体采用独立训练的方式进行训练；步骤S4，利用完成训练的多智能体进行对战决策。

全文数据：

权利要求：

百度查询：厦门渊亭信息科技有限公司面向兵棋推演的智能决策方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种改性PTFE纤维复合过滤材料及其制备方法_上海博格工业用布有限公司_202410432200.8

下一篇：一种基于注意力机制的神经网络故障修复方法、图像分类模型、图像分类方法_杭州市滨江区浙工大网络空间安全创新研究院_202410392054.0

相关技术

一种改性PTFE纤维复合过滤材料及其制备方法_上海博格工业用布有限公司_202410432200.8

一种基于注意力机制的神经网络故障修复方法、图像分类模型、图像分类方法_杭州市滨江区浙工大网络空间安全创新研究院_202410392054.0

一种改性乳化沥青粘层油合成系统_江苏北极星交通产业集团有限公司_202410251108.1

面向边缘网络中深度推理服务的领域敏感卸载方法_电子科技大学_202410195617.7

袋盖缝制模板_波司登羽绒服装有限公司_202410348753.5

微粒子测量装置及方法_友达光电股份有限公司_202410255697.0

一种基于频域特征去噪的遥感图像目标检测方法及装置_耕宇牧星(北京)空间科技有限公司_202410139190.9

一种地上式高位水池防冻装置_四川智慧高速科技有限公司_202410244046.1

一种用于吊装钢筋笼的钢平台脚手架系统及施工方法_上海建工一建集团有限公司_202410396398.9

一种适用于飞行器机翼上的机械刹车结构及飞行器_长春长光博翔无人机有限公司_202410435815.6

一种双层多孔结构双功能仿生超滑长效防腐防污涂层及其制备方法和应用_郑州大学_202410297639.4

集成式共差模电感_北京科耐特科技有限公司_202410307747.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】面向兵棋推演的智能决策方法、装置及存储介质_厦门渊亭信息科技有限公司_202410282120.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务