买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种兵棋推演的策略生成方法、电子设备、存储介质_鹏城实验室_202410038263.5 

申请/专利权人:鹏城实验室

申请日:2024-01-10

公开(公告)日:2024-04-12

公开(公告)号:CN117861230A

主分类号:A63F13/822

分类号:A63F13/822;A63F13/55;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本实施例提出一种兵棋推演的策略生成方法、电子设备和存储介质。通过基于每个智能体的状态空间和动作空间构建多智能体的联合状态空间、联合动作空间、联合奖励函数和状态转移函数,使多智能体可以在团队层面进行学习和决策,将多智能体决策问题转化为生成动作序列的策略生成问题,大幅降低了多智能体决策的复杂度,同时,控制每个智能体在决策时除了基于智能体的观测信息外还需考虑其它智能体的动作序列,避免由于多智能体之间的策略不可传递导致每个智能体在决策时陷入局部最优,使得多智能体可以输出全局最优解,同时避免多智能体协作过程中的不平稳问题,有效提高了兵棋推演场景下多智能体决策的平稳性。

主权项:1.一种兵棋推演的策略生成方法,其特征在于,所述方法包括:获取战场仿真环境;将至少两个对战方的对战实体分别进行编队,得到每个所述对战方的多个编组,其中,每个所述对战方包括多个智能体,每个所述智能体分别控制一个编组,其中,属于不同的所述对战方的智能体互为对手智能体;构建每个所述智能体在所述战场仿真环境中的状态空间和动作空间;根据每个所述对战方的所有所述智能体的所述状态空间和所述动作空间构建所述对战方的联合观测空间、联合动作空间、联合奖励函数和状态转移函数;根据所述联合观测空间确定所述对战方在每个时间步下的观测序列;根据所述观测序列确定观测表征序列;根据所述观测表征序列确定动作序列,其中,所述动作序列包括每个所述智能体的动作,第i个所述智能体的动作根据前i-1个所述智能体的动作和所述观测表征序列确定;通过所述联合动作空间将所述动作序列转换为每个所述对战实体的动作指令并控制每个所述对战实体对所述战场仿真环境执行动作指令;根据所述状态转移函数确定所述智能体执行所述动作序列前后的所述联合观测空间的变化值,并根据所述联合奖励函数确定每个所述智能体执行所述动作序列的奖赏值;根据所述观测序列,所述动作序列和所述奖赏值构成回放经验并存储到经验回放池中;在所述经验回放池中的所述回放经验的数量大于第一经验阈值的情况下,采样所述回放经验训练所述智能体的策略网络和评价网络;在采样所述回放经验的次数大于训练局数阈值,且所述智能体在所述回放经验的对局中的胜率大于第一胜率阈值的情况下,根据对手策略选择机制控制所述智能体和所述对手智能体进行对抗训练以生成策略以构建所述智能体的策略池;在所述智能体与所述对手智能体对抗的局数大于对抗局数阈值且所述智能体在与所述对手智能体对抗的过程中胜率大于第二胜率阈值的情况下,确定完成对所述智能体的训练;通过完成训练的所述智能体从所述策略池中输出策略。

全文数据:

权利要求:

百度查询: 鹏城实验室 一种兵棋推演的策略生成方法、电子设备、存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。