买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于奖励自适应分配的合作多智能体强化学习方法_中国船舶重工集团公司第七0九研究所_202111042531.3 

申请/专利权人:中国船舶重工集团公司第七0九研究所

申请日:2021-09-07

公开(公告)日:2023-05-23

公开(公告)号:CN113780576B

主分类号:G06N20/00

分类号:G06N20/00;G06N5/02

优先权:

专利状态码:有效-授权

法律状态:2023.05.23#授权;2021.12.28#实质审查的生效;2021.12.10#公开

摘要:针对完全合作式多智能体强化学习过程中,由于每个智能体获得一个共同的全局奖励,无法确定自身动作对整体奖励的影响,导致算法模型的训练效率低下及最终性能不佳的问题,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,根据环境的变化能够自适应将全局奖励分配给单个智能体,使得智能体能够据此选择对全局有利的动作,从而提高算法模型的训练效率及最终的性能。

主权项:1.一种基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,包括如下步骤:1根据先验知识将全局回报划分为m类子奖励回报,并设置对应的子奖励回报函数;2初始化模型参数;3对每一个智能体i,每隔K个时间步长,根据智能体i观察到的环境状态oi,计算智能体i的子奖励回报权重向量πoi|θ是智能体的子奖励回报权重生成策略函数,θ是其参数;4对每一个智能体i,在每个时间步长,根据智能体i观察到的环境状态oi,根据智能体的局部状态-动作值函数计算状态-动作值,按照贪心策略选取智能体该时刻t将执行的动作是其参数;5将所有智能体产生的动作联合动作输入到环境中执行,得到所有智能体的全局奖励r,根据子奖励回报函数得到每个智能体的子奖励回报值为以及对新的环境状态的观察为o′=o′1,……,o′n;6对每一个智能体i,每个时间步长,根据步骤5中得到的子奖励回报值及步骤3中得到的子奖励回报权重向量计算每个智能体i的局部奖励值7每个时间步长,更新每个智能体的局部状态-动作值函数的参数,其中oi为智能体i观察的环境状态,为选择的动作,L是损失函数, 其中,λ是学习率,γ∈0,1]是折扣因子,oi+1是智能体对下一时刻的环境状态的观察;8每隔K个时间步长,更新子奖励回报权重评价器Qtoto,w|θh的参数其中o=o1,……,on是所有智能体的联合观察状态,是所有智能体的联合子奖励回报权重向量,Lh是损失函数,Lh对参数θh连续可导, λ是学习率,γ∈0,1]是折扣因子,RK=∑Kr为前K个时间步长的全局累积回报,o′=o′1,……,o′n是所有智能体对新的环境状态的观察;9每隔K个时间步长,更新子奖励回报权重生成策略函数πoi|θ的参数θ,其中λ是子奖励回报权重生成策略函数的学习率;10学习过程收敛或者达到最大迭代次数,则结束,否则返回步骤3。

全文数据:

权利要求:

百度查询: 中国船舶重工集团公司第七0九研究所 基于奖励自适应分配的合作多智能体强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。