【发明授权】基于奖励自适应分配的合作多智能体强化学习方法_中国船舶重工集团公司第七0九研究所_202111042531.3

申请/专利权人：中国船舶重工集团公司第七0九研究所

申请日：2021-09-07

公开（公告）日：2023-05-23

公开（公告）号：CN113780576B

主分类号：G06N20/00

分类号：G06N20/00;G06N5/02

优先权：

专利状态码：有效-授权

法律状态：2023.05.23#授权;2021.12.28#实质审查的生效;2021.12.10#公开

摘要：针对完全合作式多智能体强化学习过程中，由于每个智能体获得一个共同的全局奖励，无法确定自身动作对整体奖励的影响，导致算法模型的训练效率低下及最终性能不佳的问题，本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法，根据环境的变化能够自适应将全局奖励分配给单个智能体，使得智能体能够据此选择对全局有利的动作，从而提高算法模型的训练效率及最终的性能。

主权项：1.一种基于奖励自适应分配的合作多智能体强化学习方法，其特征在于，包括如下步骤：1根据先验知识将全局回报划分为m类子奖励回报，并设置对应的子奖励回报函数；2初始化模型参数；3对每一个智能体i，每隔K个时间步长，根据智能体i观察到的环境状态oi，计算智能体i的子奖励回报权重向量πoi|θ是智能体的子奖励回报权重生成策略函数，θ是其参数；4对每一个智能体i，在每个时间步长，根据智能体i观察到的环境状态oi，根据智能体的局部状态-动作值函数计算状态-动作值，按照贪心策略选取智能体该时刻t将执行的动作是其参数；5将所有智能体产生的动作联合动作输入到环境中执行，得到所有智能体的全局奖励r，根据子奖励回报函数得到每个智能体的子奖励回报值为以及对新的环境状态的观察为o′＝o′1,……,o′n；6对每一个智能体i，每个时间步长，根据步骤5中得到的子奖励回报值及步骤3中得到的子奖励回报权重向量计算每个智能体i的局部奖励值7每个时间步长，更新每个智能体的局部状态-动作值函数的参数，其中oi为智能体i观察的环境状态，为选择的动作，L是损失函数，其中，λ是学习率，γ∈0，1]是折扣因子，oi+1是智能体对下一时刻的环境状态的观察；8每隔K个时间步长，更新子奖励回报权重评价器Qtoto,w|θh的参数其中o＝o1,……,on是所有智能体的联合观察状态，是所有智能体的联合子奖励回报权重向量，Lh是损失函数，Lh对参数θh连续可导， λ是学习率，γ∈0，1]是折扣因子，RK＝∑Kr为前K个时间步长的全局累积回报，o′＝o′1,……,o′n是所有智能体对新的环境状态的观察；9每隔K个时间步长，更新子奖励回报权重生成策略函数πoi|θ的参数θ，其中λ是子奖励回报权重生成策略函数的学习率；10学习过程收敛或者达到最大迭代次数，则结束，否则返回步骤3。

全文数据：

权利要求：

百度查询：中国船舶重工集团公司第七0九研究所基于奖励自适应分配的合作多智能体强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于多源数据融合的大尺度植被覆盖度的评估方法_上海建工五建集团有限公司_202311726158.2

下一篇：一种轴配流数字化摆线液压马达_山东瑞诺液压机械有限公司_202311771655.4

相关技术

一种基于多源数据融合的大尺度植被覆盖度的评估方法_上海建工五建集团有限公司_202311726158.2

一种轴配流数字化摆线液压马达_山东瑞诺液压机械有限公司_202311771655.4

一种辅助筛选抗条锈病小麦的分子标记、引物及方法_河南农业大学_202311663553.0

核电机房巡检管理系统_福建福清核电有限公司_202311829749.2

气密封螺纹接头的密封完整性分析方法_中国石油天然气集团有限公司_202211217925.2

一种增量数据同步断点续传方法及系统_天翼云科技有限公司_202311645560.8

检测安全带的误用的方法和系统_现代自动车株式会社_202310331919.8

一种三轨地铁受流器定位安装装置_中车长春轨道客车股份有限公司_202410005271.X

一种铅钙锡铜合金、制备方法、正极板栅及铅酸蓄电池_安徽力普拉斯电源技术有限公司_202311837568.4

一种基于激光点云的对焊焊缝高精度识别方法_大连理工大学_202311821280.8

一种凹凸棒土负载硫化纳米双金属材料、制备方法及应用_安徽国祯环境修复股份有限公司_202311464026.7

一种用于测量斜视合并屈光不正患者的三棱镜装置及方法_深圳爱尔眼科医院_202311604419.3

龙图腾网&IPTOP

【发明授权】基于奖励自适应分配的合作多智能体强化学习方法_中国船舶重工集团公司第七0九研究所_202111042531.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务