【发明公布】基于组合训练的规则嵌入多智能体强化学习方法及装置_中国人民解放军军事科学院战争研究院_202010568287.3

申请/专利权人：中国人民解放军军事科学院战争研究院

申请日：2020-06-19

公开（公告）日：2020-10-16

公开（公告）号：CN111783944A

主分类号：G06N3/04(20060101)

分类号：G06N3/04(20060101);G06N3/08(20060101)

优先权：

专利状态码：失效-发明专利申请公布后的驳回

法律状态：2022.04.01#发明专利申请公布后的驳回;2020.11.03#实质审查的生效;2020.10.16#公开

摘要：本发明实施例公开了一种基于组合训练的规则嵌入多智能体强化学习方法及装置，本发明实施例将规则库与强化学习有效的结合起来，能够实现对博弈对抗问题的建模与求解，通过引入间接动作类型，在智能体对自身求解空间探索的同时，增加了是否使用规则的决策，避免了规则优先使用的缺陷，提升规则与学习结合的有效性。此外，多智能体强化学习模型产生的间接动作指定了智能体所使用的规则库之后，规则选择模型用来从指定的规则库中选择最合适的规则。通过两级规则选择机制，能够有效降低无效规则对强化学习效果的影响。针对包含两种异构模型的训练问题，提供了一种组合训练的方法，通过反复迭代训练得到两种模型，实现异构模型的融合训练。

主权项：1.一种基于组合训练的规则嵌入多智能体强化学习方法，其特征在于，包括：建立融合规则的多智能体强化学习模型；其中，所述多智能体强化学习模型包括与每个智能体分别对应的智能体神经网络结构模型和与所有智能体对应的混合神经网络结构模型；其中，每个智能体神经网络结构模型用于接收各自的观测状态，并根据观测状态输出智能体下一步的动作，所述动作包括直接动作或间接动作；其中，直接动作表示能够在多智能体环境中直接执行的动作；间接动作表示需要从与间接动作对应的规则库中选择匹配的规则，并对规则解析后得到直接动作；其中，混合神经网络结构模型用于接收所有智能体神经网络结构模型输出的动作，并输出一个全局动作，用于指导每个智能体神经网络结构模型的训练；建立规则选择强化学习模型；其中，所述规则选择强化学习模型包括规则库模块、深度强化学习模型和规则解析模块；所述规则库模块用于根据所述间接动作从与相应智能体对应的多类别的规则库中选定与所述间接动作对应的规则库；所述深度强化学习模型用于从选定的规则库中确定匹配的规则；所述规则解析模块用于对规则进行解析；对所述多智能体强化学习模型和所述规则选择强化学习模型进行组合训练，在训练所述多智能体强化学习模型的期间固定所述规则选择强化学习模型，在训练所述规则选择强化学习模型的期间固定所述多智能体强化学习模型，通过反复迭代完成对所述多智能体强化学习模型和所述规则选择强化学习模型的组合训练。

全文数据：

权利要求：

百度查询：中国人民解放军军事科学院战争研究院基于组合训练的规则嵌入多智能体强化学习方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高低压无火花过渡电路、系统及用于车身电泳方法_保定市宏诚变流器制造有限公司_202410021536.5

下一篇：氧化铝复合纱线的成型方法及包缠装置_武汉纺织大学_202410011431.1

相关技术

一种高低压无火花过渡电路、系统及用于车身电泳方法_保定市宏诚变流器制造有限公司_202410021536.5

氧化铝复合纱线的成型方法及包缠装置_武汉纺织大学_202410011431.1

一种应用于遥感载荷的深低温模拟前端集成电路_北京空间机电研究所_202311723307.X

一种航标报警准确率的优化方法、系统、设备及存储介质_长江三峡通航管理局_202311761371.7

相机平面校正方法及装置、存储介质、电子装置_节卡机器人股份有限公司_202311872939.2

一种动力电池穿刺试验装置_三明市新能源产业技术研究院有限公司_202311813197.6

一种单核DSP目标跟踪方法及系统_华中光电技术研究所(中国船舶集团有限公司第七一七研究所)_202311734356.3

一种火箭发动机用双机并联机架_北京航天动力研究所_202311854965.2

一种聚焦式脉冲波治疗仪_浙江思智科技有限公司_202311643640.X

冷凝器快速散热的酒柜及冷凝器快速散热方法_广东奥特龙电器制造有限公司_202311835370.2

一种充气装置_海南泽彬科技贸易有限公司_202311861590.2

一种电子元器件加工用的定位点胶装置_四川宝德自强计算机有限公司_202311808230.6

龙图腾网&IPTOP

【发明公布】基于组合训练的规则嵌入多智能体强化学习方法及装置_中国人民解放军军事科学院战争研究院_202010568287.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务