【发明公布】一种基于状态价值保留的QMIX强化学习方法_华南农业大学_202311578029.3

导航：龙图腾网> 最新专利技术> 一种基于状态价值保留的QMIX强化学习方法_华南农业大学_202311578029.3

申请/专利权人：华南农业大学

申请日：2023-11-23

公开（公告）日：2024-04-05

公开（公告）号：CN117829249A

主分类号：G06N3/092

分类号：G06N3/092;G06N3/045;G06N3/0442

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.23#实质审查的生效;2024.04.05#公开

摘要：本发明提供一种基于状态价值保留的QMIX强化学习方法，以QMIX算法框架构建状态价值保留的QMIX算法框架；将智能体网络与环境做交互并将相应的数据存入经验缓存池中；采样batch批次的数据，将智能体网络输出的状态‑动作值函数、历史轨迹信息一起输入进状态价值保留混合网络中；使用训练好的智能体网络与任务环境做交互，达到去中心化执行的目的。本发明对QMIX算法进行改进，通过考虑死亡智能体先前的贡献，来保留死亡智能体的状态价值。全面考虑死后智能体的状态价值在全局时空上的影响，引入注意力机制。通过对状态价值函数进行动态加权，使得死后智能体的状态价值函数能够自适应环境的变化，从而提升了合作对战的效果。

主权项：1.一种基于状态价值保留的QMIX强化学习方法，其特征在于，包括以下步骤：S1、以QMIX算法框架，构建状态价值保留的QMIX算法框架，所述的QMIX算法框架包括一个智能体网络和一个状态价值保留混合网络；S2、测试阶段，将智能体网络与环境做交互，并将每个智能体的每个时刻的局部观测数据以及对应观测下执行的动作每个智能体是否存活的状态alive、全局状态信息s、以及在Ot环境下执行动作Ut所获得的奖励Rt＝{rt1,rt2,...,rtn}存入经验缓存池中；其中，为t时刻智能体i的局部观测数据、为t时刻智能体i所执行的动作、rti为时刻t智能体i在局部观测下执行动作所获得的奖励；S3、训练阶段，从经验缓存池中采样batch批次的数据，每个批次的数据都有完整的观测序列，根据存储的数据，智能体网络输出每个智能体的状态-动作值函数Qτ,u＝{Q1τ1,u1,...,Qnτn,un}、历史轨迹信息τ＝{τ1,τ2,...,τn}，并将其一起输入进状态价值保留混合网络中；S4、使用训练好的智能体网络与任务环境做交互，达到中心化训练，去中心化执行的目的。

全文数据：

权利要求：

百度查询：华南农业大学一种基于状态价值保留的QMIX强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种抑菌保暖女式羊绒大衣_安庆初颖数字科技有限公司_202322077610.9

下一篇：一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

相关技术

一种抑菌保暖女式羊绒大衣_安庆初颖数字科技有限公司_202322077610.9

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

一种无缝钢管送料设备_宁波东进钢管有限公司_202322167126.5

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

交通工具用座椅倾斜装置_丰田纺织株式会社_202080082271.X

一种新型加湿器_莆田市必捷电子有限公司_202322599727.3

龙图腾网&IPTOP

【发明公布】一种基于状态价值保留的QMIX强化学习方法_华南农业大学_202311578029.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务