【发明公布】面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法_北京航空航天大学_202310079296.X

申请/专利权人：北京航空航天大学

申请日：2023-01-18

公开（公告）日：2023-04-14

公开（公告）号：CN115964898A

主分类号：G06F30/20

分类号：G06F30/20

优先权：

专利状态码：在审-实质审查的生效

法律状态：2023.05.02#实质审查的生效;2023.04.14#公开

摘要：本发明公开了一种面向兵力博弈对抗的BC‑QMIX离在线多智能体行为决策建模方法，包括：构建BC‑QMIX行为决策模型，包括上层的混合状态‑动作价值网络以及底层的子智能体网络，子智能体网络包括动作价值网络和行为克隆网络；设计动作选择策略，通过行为克隆网络限制训练过程中智能体的动作选择，只考虑实际出现在样本数据集中的动作，而不是考虑动作空间中所有可能的动作；进行离线和在线训练：基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练；在线环境下更新样本数据集，进行在线的优化训练；将训练好的BC‑QMIX行为决策模型部署在多智能体仿真环境，完成实时自主决策。该方法能够加速行为决策模型网络训练和收敛，缓解标准QMIX模型离线训练的外推误差。

主权项：1.一种面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法，其特征在于，包括以下步骤：步骤一，针对兵力博弈对抗场景，构建BC-QMIX行为决策模型，包括上层的混合状态-动作价值网络以及底层的子智能体网络，每个子智能体网络包括动作价值网络和行为克隆网络；步骤二，针对BC-QMIX行为决策模型，设计动作选择策略，通过行为克隆网络限制训练过程中智能体的动作选择，只考虑实际出现在样本数据集中的动作，而不是考虑动作空间中所有可能的动作，缩小动作价值的外推误差；步骤三，对所述BC-QMIX行为决策模型进行离线和在线训练，包括两个阶段：基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练；在线环境下更新样本数据集，进行在线的优化训练；步骤四，将训练好的BC-QMIX行为决策模型部署在兵力博弈对抗场景下多智能体仿真环境，完成实时自主决策。

全文数据：

权利要求：

百度查询：北京航空航天大学面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种输电线路故障诊断带电作业机器人_武汉纺织大学_202322784420.0

下一篇：多层复合板及其制法_上海宁升材料科技有限公司_202010293671.7

相关技术

一种输电线路故障诊断带电作业机器人_武汉纺织大学_202322784420.0

多层复合板及其制法_上海宁升材料科技有限公司_202010293671.7

一种贝壳养殖设备_浙江海洋大学_201911266553.0

R－T－B系永久磁铁_TDK株式会社_202011387605.2

测试方法、装置、服务器及介质_中国银联股份有限公司_202010921526.9

基于动态稀释法的机动车尾气车载测试平台及采样方法_北京大学_201910048424.8

一种用于舞蹈服装生产的除皱定型挂烫装置_江西炫舞文化发展有限公司_202111221227.5

一种玻璃基板镀膜装置_福建华佳彩有限公司_202010938628.1

一种燃气轮机压气机可转导叶转动机构_中国船舶重工集团公司第七0三研究所_202111518204.0

一种烟酰胺烘干机_山东昆达生物科技有限公司_202322779029.1

一种涂布模头加工防护设备_无锡市泛恩精密机械有限公司_202322764466.6

一种主动配电网和虚拟电厂协同运行的分布式优化方法_东南大学_202110348138.0

相关技术

相关技术

相关技术

龙图腾网&IPTOP

【发明公布】面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法_北京航空航天大学_202310079296.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务