买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于融合差分建议的多智能体复杂系统迁移强化学习方法_大连理工大学_202311729139.5 

申请/专利权人:大连理工大学

申请日:2023-12-15

公开(公告)日:2024-03-15

公开(公告)号:CN117709437A

主分类号:G06N3/092

分类号:G06N3/092;G06N3/096;G06N3/084;G06N3/045;G06N3/047

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.02#实质审查的生效;2024.03.15#公开

摘要:本发明公开了一种基于融合差分建议的多智能体复杂系统迁移强化学习方法,属于多智能体复杂系统领域。本发明通过引入随机网络蒸馏模型极大地降低了差分建议方法的时间和空间复杂度,同时将差分建议思想扩展到了高维状态空间的复杂环境中,扩大了算法的应用范围。在此基础上设计了一种基于权重的多智能体建议融合方法,更加充分地利用了基于差分建议模型获得的来自多个智能体的建议,使得智能体可以使用来自于多个智能体产生于多个与当前状态略有不同的高维状态上的融合差分建议,提高了知识迁移的质量与效率,显著地提升了多智能体系统前期的学习效果,促使智能体在任务上得到收敛速度更快、表现更好的解决方案。

主权项:1.一种基于融合差分建议的多智能体复杂系统迁移强化学习方法,其特征在于,该方法包括以下步骤:步骤1:初始化多智能体强化学习模型与随机网络蒸馏模型多智能体强化学习任务由一个元组表示S,Ai,Oi,Ri,T,γ,n;其中,S表示环境的状态空间,Ai、Oi和Ri分别表示智能体i的动作空间、观察空间和奖励函数,T为环境的状态转移函数,γ为奖励折扣因子,n为环境中智能体的数目;所有的智能体都由结构相同的神经网络表示,每个智能体都能获得自己的观察oi∈Oi;所有智能体的动作构成一个联合动作,记为每个智能体的策略πi建模为智能体在状态si下采取动作ai的概率,智能体的联合策略定义为π=π1,π2,…,πn,即π=ps,a=pa|s=pa1,a2,...,an|s1每个智能体的奖励函数会受到环境状态和其他智能体动作的影响,即ri=Ris,a,s′;奖励函数设置为只有智能体自己才能获得;环境的状态转换是由环境的前一个状态和智能体的联合动作决定的;针对多智能体系统,多智能体强化学习的目标是找到一组策略参数,使得累计奖励的期望最大化;同时为每个智能体设置随机网络蒸馏模型,每个随机网络蒸馏模型由预测网络和目标网络组成,二者结构相同但初始化参数不同,每次训练只更新预测网络参数,目标网络参数在初始化后不再更新;具体步骤如下:1.1随机初始化智能体Q网络参数wi,清空经验池D;1.2随机初始化随机网络蒸馏模型中预测网络和目标网络的网络参数;步骤2:多智能体与环境交互2.1观测智能体i的状态si;2.2得到状态si后,通过随机网络蒸馏模型判断是否进行知识迁移,若不需要知识迁移则将状态si输入智能体Q网络,得到所有动作的估计值,使用∈-贪婪法选择执行动作ai;若需要进行知识迁移则使用迁移得到的知识选择动作ai;2.3执行动作ai,获得环境奖励ri和新的环境状态si′,将si,ai,ri,si′存入经验池;步骤3:训练强化学习模型3.1从经验池D中采集m个样本sj,aj,rj,s′j,j=1,…,m;计算目标值yj: 其中,目标值yj表示在状态sj时获得的真实奖励;aj′为在状态sj′时估计智能体会采取获得最大回报的动作;任务结束表示智能体到达终止状态;γ为衰减因子;Wi为网络参数;Q·为价值函数;3.2使用均方损失误差函数通过神经网络的梯度反向传播来更新智能体Q网络的所有参数wi: 其中,为在状态sj时策略网络估计获得的价值;步骤4:训练随机网络蒸馏模型4.1将步骤3.1中m个样本中的状态sj,输入随机网络蒸馏模型中,得到预测网络输出值和目标网络输出值fsj;4.2计算L1-Loss:作为误差;4.3使用误差μ通过神经网络的梯度反向传播来更新预测网络的所有参数;4.4当达到预设的训练次数或任务完成指标则停止迭代训练。

全文数据:

权利要求:

百度查询: 大连理工大学 一种基于融合差分建议的多智能体复杂系统迁移强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。