【发明公布】一种基于融合差分建议的多智能体复杂系统迁移强化学习方法_大连理工大学_202311729139.5

申请/专利权人：大连理工大学

申请日：2023-12-15

公开（公告）日：2024-03-15

公开（公告）号：CN117709437A

主分类号：G06N3/092

分类号：G06N3/092;G06N3/096;G06N3/084;G06N3/045;G06N3/047

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.02#实质审查的生效;2024.03.15#公开

摘要：本发明公开了一种基于融合差分建议的多智能体复杂系统迁移强化学习方法，属于多智能体复杂系统领域。本发明通过引入随机网络蒸馏模型极大地降低了差分建议方法的时间和空间复杂度，同时将差分建议思想扩展到了高维状态空间的复杂环境中，扩大了算法的应用范围。在此基础上设计了一种基于权重的多智能体建议融合方法，更加充分地利用了基于差分建议模型获得的来自多个智能体的建议，使得智能体可以使用来自于多个智能体产生于多个与当前状态略有不同的高维状态上的融合差分建议，提高了知识迁移的质量与效率，显著地提升了多智能体系统前期的学习效果，促使智能体在任务上得到收敛速度更快、表现更好的解决方案。

主权项：1.一种基于融合差分建议的多智能体复杂系统迁移强化学习方法，其特征在于，该方法包括以下步骤：步骤1：初始化多智能体强化学习模型与随机网络蒸馏模型多智能体强化学习任务由一个元组表示S，Ai，Oi，Ri，T，γ，n；其中，S表示环境的状态空间，Ai、Oi和Ri分别表示智能体i的动作空间、观察空间和奖励函数，T为环境的状态转移函数，γ为奖励折扣因子，n为环境中智能体的数目；所有的智能体都由结构相同的神经网络表示，每个智能体都能获得自己的观察oi∈Oi；所有智能体的动作构成一个联合动作，记为每个智能体的策略πi建模为智能体在状态si下采取动作ai的概率，智能体的联合策略定义为π＝π1，π2，…，πn，即π＝ps，a＝pa|s＝pa1，a2，...，an|s1每个智能体的奖励函数会受到环境状态和其他智能体动作的影响，即ri＝Ris，a，s′；奖励函数设置为只有智能体自己才能获得；环境的状态转换是由环境的前一个状态和智能体的联合动作决定的；针对多智能体系统，多智能体强化学习的目标是找到一组策略参数，使得累计奖励的期望最大化；同时为每个智能体设置随机网络蒸馏模型，每个随机网络蒸馏模型由预测网络和目标网络组成，二者结构相同但初始化参数不同，每次训练只更新预测网络参数，目标网络参数在初始化后不再更新；具体步骤如下：1.1随机初始化智能体Q网络参数wi，清空经验池D；1.2随机初始化随机网络蒸馏模型中预测网络和目标网络的网络参数；步骤2：多智能体与环境交互2.1观测智能体i的状态si；2.2得到状态si后，通过随机网络蒸馏模型判断是否进行知识迁移，若不需要知识迁移则将状态si输入智能体Q网络，得到所有动作的估计值，使用∈-贪婪法选择执行动作ai；若需要进行知识迁移则使用迁移得到的知识选择动作ai；2.3执行动作ai，获得环境奖励ri和新的环境状态si′，将si，ai，ri，si′存入经验池；步骤3：训练强化学习模型3.1从经验池D中采集m个样本sj，aj，rj，s′j，j＝1，…，m；计算目标值yj：其中，目标值yj表示在状态sj时获得的真实奖励；aj′为在状态sj′时估计智能体会采取获得最大回报的动作；任务结束表示智能体到达终止状态；γ为衰减因子；Wi为网络参数；Q·为价值函数；3.2使用均方损失误差函数通过神经网络的梯度反向传播来更新智能体Q网络的所有参数wi：其中，为在状态sj时策略网络估计获得的价值；步骤4：训练随机网络蒸馏模型4.1将步骤3.1中m个样本中的状态sj，输入随机网络蒸馏模型中，得到预测网络输出值和目标网络输出值fsj；4.2计算L1-Loss：作为误差；4.3使用误差μ通过神经网络的梯度反向传播来更新预测网络的所有参数；4.4当达到预设的训练次数或任务完成指标则停止迭代训练。

全文数据：

权利要求：

百度查询：大连理工大学一种基于融合差分建议的多智能体复杂系统迁移强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

下一篇：一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

相关技术

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

一种抑菌保暖女式羊绒大衣_安庆初颖数字科技有限公司_202322077610.9

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

再生废液处理系统_山东荣信集团有限公司_202322260404.1

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种偏摆检查仪_长春一东离合器股份有限公司_202420407178.7

系统相关技术

显示系统_华为技术有限公司_202110898215.X

开采系统_地下萃取技术私人有限公司_201980058102.X

破碎系统_内蒙古金辉稀矿有限公司_202322202710.X

空调系统_宁波奥克斯电气股份有限公司_202322434517.9

供热系统_瑞纳智能设备股份有限公司_202322452572.0

热泵系统_青岛海尔空调电子有限公司_202211295395.3

EGR系统_赛力斯集团股份有限公司_202211341129.X

液压系统的过滤方法、液压系统及作业机械_三一重机有限公司_202110610891.2

叉车车载电源系统和叉车充电系统_深圳市雄韬锂电有限公司_201911407557.6

用于协助用户配置照明系统的系统及方法_昕诺飞控股有限公司_202080041251.8

体相关技术

玻璃捆包体_日本电气硝子株式会社_202311256457.4

药液、药液收容体_富士胶片株式会社_201980046121.0

开闭体驱动装置_株式会社爱信_202311364489.6

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

助威工具结构体_朴泳_202310387247.2

层叠体、层叠体的制造方法、层叠用膜、图像显示装置_大日本印刷株式会社_202080089572.5

一种盒体及双层盒体底部连接纸的粘贴方法_中科天工(武汉)智能技术有限公司_202210267720.9

屏体翻折治具和屏体翻折方法_合肥维信诺科技有限公司_202111370062.8

一种钳体一体成型铸造设备_安徽盛隆铸业有限公司_202322374008.1

聚酯弹性体树脂组合物_东洋纺MC株式会社_202180016681.9

复杂相关技术

一种双法兰复杂锻件成形模具_郑州机械研究所有限公司_202322359530.2

一种基于复杂度引导相位恢复的散斑成像重建方法_杭州电子科技大学_202110746763.0

一种便于在复杂地型安装的环形水泥电杆_澜沧浩博水泥制品有限责任公司_202322591775.8

一种适用于复杂水力联系的海绵城市洪涝优化调度方法_南昌工程学院_202011092833.7

一种复杂干扰场景下的机载雷达无意干扰抑制方法_西安电子科技大学_202010819190.5

复杂工况故障诊断方法、设备、存储介质及装置_中南民族大学_202110776972.X

用于双向光流的复杂度降低和位宽控制_VID拓展公司_201980060852.0

一种适用于复杂地质环境的深层地热钻探装置_大安润风能源开发有限公司_202410149091.9

复杂电子系统可靠性量化方法、装置和计算机设备_中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室))_202010328159.1

一种低复杂度的适用于双流传输的信道均衡与软解调方法_成都中科微信息技术研究院有限公司_202210138473.2

龙图腾网&IPTOP

【发明公布】一种基于融合差分建议的多智能体复杂系统迁移强化学习方法_大连理工大学_202311729139.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务