买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于组合训练的规则嵌入多智能体强化学习方法及装置_中国人民解放军军事科学院战争研究院_202010568287.3 

申请/专利权人:中国人民解放军军事科学院战争研究院

申请日:2020-06-19

公开(公告)日:2020-10-16

公开(公告)号:CN111783944A

主分类号:G06N3/04(20060101)

分类号:G06N3/04(20060101);G06N3/08(20060101)

优先权:

专利状态码:失效-发明专利申请公布后的驳回

法律状态:2022.04.01#发明专利申请公布后的驳回;2020.11.03#实质审查的生效;2020.10.16#公开

摘要:本发明实施例公开了一种基于组合训练的规则嵌入多智能体强化学习方法及装置,本发明实施例将规则库与强化学习有效的结合起来,能够实现对博弈对抗问题的建模与求解,通过引入间接动作类型,在智能体对自身求解空间探索的同时,增加了是否使用规则的决策,避免了规则优先使用的缺陷,提升规则与学习结合的有效性。此外,多智能体强化学习模型产生的间接动作指定了智能体所使用的规则库之后,规则选择模型用来从指定的规则库中选择最合适的规则。通过两级规则选择机制,能够有效降低无效规则对强化学习效果的影响。针对包含两种异构模型的训练问题,提供了一种组合训练的方法,通过反复迭代训练得到两种模型,实现异构模型的融合训练。

主权项:1.一种基于组合训练的规则嵌入多智能体强化学习方法,其特征在于,包括:建立融合规则的多智能体强化学习模型;其中,所述多智能体强化学习模型包括与每个智能体分别对应的智能体神经网络结构模型和与所有智能体对应的混合神经网络结构模型;其中,每个智能体神经网络结构模型用于接收各自的观测状态,并根据观测状态输出智能体下一步的动作,所述动作包括直接动作或间接动作;其中,直接动作表示能够在多智能体环境中直接执行的动作;间接动作表示需要从与间接动作对应的规则库中选择匹配的规则,并对规则解析后得到直接动作;其中,混合神经网络结构模型用于接收所有智能体神经网络结构模型输出的动作,并输出一个全局动作,用于指导每个智能体神经网络结构模型的训练;建立规则选择强化学习模型;其中,所述规则选择强化学习模型包括规则库模块、深度强化学习模型和规则解析模块;所述规则库模块用于根据所述间接动作从与相应智能体对应的多类别的规则库中选定与所述间接动作对应的规则库;所述深度强化学习模型用于从选定的规则库中确定匹配的规则;所述规则解析模块用于对规则进行解析;对所述多智能体强化学习模型和所述规则选择强化学习模型进行组合训练,在训练所述多智能体强化学习模型的期间固定所述规则选择强化学习模型,在训练所述规则选择强化学习模型的期间固定所述多智能体强化学习模型,通过反复迭代完成对所述多智能体强化学习模型和所述规则选择强化学习模型的组合训练。

全文数据:

权利要求:

百度查询: 中国人民解放军军事科学院战争研究院 基于组合训练的规则嵌入多智能体强化学习方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。