买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于分级同伴奖励的多智能体协作重复博弈方法_西北工业大学_202310024214.1 

申请/专利权人:西北工业大学

申请日:2023-01-09

公开(公告)日:2023-04-25

公开(公告)号:CN116012056A

主分类号:G06Q30/0207

分类号:G06Q30/0207;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.05.12#实质审查的生效;2023.04.25#公开

摘要:本发明公开了一种基于分级同伴奖励的多智能体协作重复博弈方法,聚焦分散自利多智能体由于奖励独立性和环境风险因素导致协作困难的问题,目标是使智能体找到最大化全局奖励的协作策略。提出了分级同伴奖励方法,其在训练过程中使智能体根据历史交互轨迹实时推断对手策略变化,并在不同级别的同伴奖励中动态改变自身策略,完成一次交互后,将该次交互加入历史轨迹循环往复,实现相互协作和防止在学习过程中被非协作的对手利用,提升了分散博弈智能体学习协作能力。

主权项:1.一种基于分级同伴奖励的多智能体协作重复博弈方法,其特征在于,包括以下步骤:步骤1:利用博弈论知识将协作问题抽象为有限次重复博弈;将现实环境中反复交互的协作问题抽象为一个有限次重复博弈G,由一个元组G=<S,A,n,T,H,{Rk}>指定;其中,S是环境的状态,A是智能体动作集,n是博弈智能体个数,T为有限次重复博弈轮次,打为历史交互轨迹,{Rk}为第k个智能体的奖励k∈{1,...,n};给定一个单次博弈g,重复博弈有限T次,在每个时间步t时,选择动作和st∈S;联合动作at∈A,导致状态转换:S×A→S′;奖励函数这些变量随时间变化的历史被称为轨迹:每个智能体都寻求最大化自己的总奖励使用分散DeepQ-Network训练每个智能体的策略πk;步骤2:有限次重复猎鹿博弈与其子博弈完美均衡;用参数r描述猎鹿的风险,即单独猎鹿的奖励,将r称为风险参数;将问题定义为有限次重复猎鹿博弈,猎鹿博弈收益矩阵如下表所示,博弈智能体能够选择猎鹿和猎兔两种行为,该博弈有两个纳什均衡点,即猎鹿,猎鹿和猎兔,猎兔,其中猎鹿,猎鹿比猎兔,猎兔具有较高的个体和总体收益;表1 猎鹿 猎兔 猎鹿 2,2 r,1 猎兔 1,r 1,1 子博弈完美纳什均衡SPE: 其中a表示有限次重复猎鹿博弈中的智能体的联合策略,ak表示智能体k的纯策略集,ak|h智能体k在子博弈节点h的策略选择,a-k|h除智能体k以外其余智能体在子博弈节点h的策略选择,μi表示智能体i在子博弈中的总体收益;步骤3:求解有限次重复猎鹿博弈中的子博弈完美纳什均衡;使用逆向归纳求解有限次重复猎鹿博弈的子博弈完美纳什均衡,包括以下步骤:①从最终端的非叶节点即最后一个子博弈开始计算均衡,使用此策略替换此子博弈根节点;②重复步骤①,直到递归到整体博弈的根节点为止;通过以这种方式逆向归纳,验证重复猎鹿博弈有两个子博弈完美纳什均衡,即在全部的T回合中选择猎鹿,猎鹿或者猎兔,猎兔;步骤4:分析零和同伴奖励对均衡的影响;设原有的有限次重复猎鹿博弈为M,用同伴奖励扩展来制定新的博弈在中每个智能体的策略集在零和同伴奖励扩展的有限次重复猎鹿博弈中,对于任何ai|h∈Ai,ai|h,gi|h收益小于等于ai|h,0,即在其他智能体策略保持不变的情况下,ai|h,gi|h如果gi|h≠0总是比a|h,0收益更低;推论:在任何零和同伴奖励扩展的有限次重复猎鹿博弈中的SPE集合中,所有智能体的同伴奖励值都为0; 命题:对于任何正常形式的博弈M扩展到带有零和同伴奖励博弈在它们对应的SPE策略ASPE和之间存在一个唯一的一对一映射,这样如果一个策略集是M中的SPE,那么附加值为0的同伴奖励动作也会对应一个SPE在 步骤5:分析零和同伴奖励对于智能体学习行为影响;分别定义两个博弈智能体的策略πx和πy,x和y参数化了智能体策略; 其中a1=猎鹿,a2=猎兔,a3=猎鹿+同伴奖励,a4=猎兔+同伴奖励;步骤6:使用对手建模辅助同伴奖励;使用过去的行动观察历史来估计对手的参数: 其中θ2为对手的策略参数,为对手的策略函数,是t时刻对手的动作,st为t时刻环境的状态;步骤7:根据不同对手策略选取不同的同伴奖励;在有限次重复猎鹿博弈中,智能体根据历史交互轨迹来计对手的策略,并实时调整策略;定义分级同伴奖励,具体的分级策略如下表2所示,根据估计的对手的不同协作度,选取不同的同伴奖励值;表2 协作度级别 同伴奖励值 0.0-0.3 5 0.3-0.7 10 0.7-1.0 15 将对手的策略分为三个级别:[0,0.3、[0.3,0.7]、0.7,1.0],对应对手的高、中、低协作水平,同样将同伴奖励值分为三个级别:5、10、15;对应关系如表2所示。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于分级同伴奖励的多智能体协作重复博弈方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术