申请/专利权人:厦门渊亭信息科技有限公司
申请日:2024-03-12
公开(公告)日:2024-05-10
公开(公告)号:CN118001744A
主分类号:A63F13/67
分类号:A63F13/67;A63F13/822;G06N3/045;G06N3/092
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.05.28#实质审查的生效;2024.05.10#公开
摘要:本发明提供了一种面向兵棋推演的多智能体强化学习智能决策方法、装置及存储介质,该方法包括:步骤S1,对兵棋推演场景进行建模;步骤S2,根据对兵棋推演场景的建模,构建兵棋推演场景的上下层分层决策网络;步骤S3,通过强化学习对上下层分层决策网络进行分层网络训练;其中,对上层决策网络针对所有多智能体采用集中式训练的方式进行训练;对下层决策网络针对各智能体采用独立训练的方式进行训练;步骤S4,利用完成训练的多智能体进行对战决策。针对兵棋推演这类具有高维状态空间、观测空间和动作空间的复杂训练场景,本发明实施例的技术方案提高了整体训练的效率,可以实现特定兵棋推演想定下的有效决策。
主权项:1.一种面向兵棋推演的多智能体强化学习智能决策方法,其特征在于,包括:步骤S1,对兵棋推演场景进行建模,包括对兵棋推演场景的智能体集合进行定义及对状态空间、观测空间和动作空间进行建模;步骤S2,根据对兵棋推演场景的建模,构建兵棋推演场景的上下层分层决策网络,其中,将上下层分层决策分别视为马尔可夫决策过程,所述上下层分层决策网络的决策结果一起用于形成环境所需的复合操作;其中,上层决策网络用于从任务集中为智能体选择可用的任务;下层决策网络用于根据上层决策网络选择的任务来选择智能体要执行的动作;步骤S3,通过强化学习对所述上下层分层决策网络进行分层网络训练;其中,对所述上层决策网络针对所有多智能体采用集中式训练的方式进行训练;对所述下层决策网络针对各智能体采用独立训练的方式进行训练;步骤S4,利用完成训练的多智能体进行对战决策。
全文数据:
权利要求:
百度查询: 厦门渊亭信息科技有限公司 面向兵棋推演的智能决策方法、装置及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。