买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】奖惩机制演化博弈模型构建方法、系统及应用_西安电子科技大学_202110105123.1 

申请/专利权人:西安电子科技大学

申请日:2021-01-26

公开(公告)日:2023-12-01

公开(公告)号:CN112801299B

主分类号:G06N20/00

分类号:G06N20/00;G06Q50/00

优先权:

专利状态码:有效-授权

法律状态:2023.12.01#授权;2021.06.01#实质审查的生效;2021.05.14#公开

摘要:本发明属于网络信息数据处理技术领域,公开了一种奖惩机制演化博弈模型构建方法、系统及应用,采用外部事件信息流入机制和基于态度行为的奖惩机制;在计算中心个体的自身所拥有信息量能否促使中心个体选择合作时所使用的公式符合随着信息量的增加,合作概率增加同时合作概率增加速率减缓的一般意义,且利用对数函数特性保证模型不会出现随着大量信息渗入社会群体直接快速全合作;利用声望值作为奖惩机制量化标准,在有数理推导的依托下分析社交网络稳定性条件并运用至仿真。本发明对社交网络稳定状态的条件做了探究同时在外界信息流入和对博弈个体的奖励惩罚机制上做了改进。

主权项:1.一种奖惩机制演化博弈模型构建方法,其特征在于,所述奖惩机制演化博弈模型构建方法采用外部事件信息流入机制和基于态度行为的奖惩机制;该模型个体自身声望值的大小即衡量用户间行为态度博弈的收益大小的依据;而用户所拥有的信息量大小和其态度行为策略会直接影响该个体的自身声望值,其自身声望值的变动和与邻居声望值的大小的对比又会反过来影响该个体与其他个体链接权重的变化和适应度的变动;在计算中心个体的自身所拥有信息量能否促使中心个体选择合作符合随着信息量的增加,合作概率增加同时合作概率增加速率减缓的一般意义,且利用对数函数特性保证模型不会出现随着大量信息渗入社会群体直接快速全合作;利用声望值直接作为奖惩机制量化标准,在有数理推导的依托下分析社交网络稳定性条件并运用至仿真;所述奖惩机制演化博弈模型构建方法包括以下步骤:第一步,建立的规则网格网络,进行多轮次的循环演化博弈;第二步,记录每个个体的行为和态度,对网络中的中心个体的行为选择根据个体邻居态度和自身态度进行适应性调整;第三步,根据邻居态度对受压力个体行为进行更新;根据中心个体自身态度对知行不合一个体进一步做个体态度策略更新;第四步,构建基于态度行为的奖惩机制模型收益矩阵;所述奖惩机制演化博弈模型构建方法建立一个大小为L*L的规则网格网络,L根据需模仿的网络规模设定为100、200或400,网络中每一个网格代表一个社交网络中的用户个体;每一个个体都被赋予其特有的属性值,包括1初始行为s,初始行为包括合作和背叛;2初始声望值R;3初始信息量I;4初始链接权重w及其上下限[w-e,w+e];5链接权重变化值u;设定博弈收益矩阵M、其主要取决于所采用的博弈模型,采用囚徒困境PDG时,收益矩阵为: 根据个体的初始行为和博弈收益矩阵计算每一个个体的初始博弈收益;所述奖惩机制演化博弈模型构建方法进行多轮次的循环演化博弈过程包括:每一轮次演化过程中,随机选取网格中的某一个位置处的节点用户作为中心个体,根据其所处网格位置的不同计算中心个体与其邻居个体的平均声望值并进行对比进行链接权重更新:1若中心个体的声望值大于所有邻居个体的平均声望值,且链接权重小于等于链接权重的阈值上界减链接权重增益值,则增加自身链接权重;2若中心个体的声望值小于所有邻居个体的平均声望值,且链接权重大于等于链接权重的阈值下界加链接权重增益值,则减小自身连接权重;3否则链接权重不变;每一轮次演化过程中,比较中心个体与其邻居个体的信息量,进行中心个体所拥有信息量的更新:1若某一中心个体邻居信息量大,则挑选出信息量最大的邻居个体,中心个体将其信息量复制并作为自身信息量;2若中心个体的信息量不小于所有其邻居个体的信息量,则中心个体自身信息量不变;记录每一轮次演化结束时网络中拥有最高声望值的个体作为意见领袖,记录其在网格中的位置、该轮次结束时的声望值和所意见领袖拥有的信息量;在每一轮次的演化博弈过程中,对意见领袖进行声望值和信息量的更新:1若意见领袖选择合作,则在固定的时间间隔后向意见领袖进行外部事件信息流入的操作,并将意见领袖的声望值奖励较大增幅以稳固地位;具体信息流入操作为直接增加信息量,演化博弈整个过程的信息量的总增幅不变,每轮的增量与所设定的外部信息流入速率有关;2若意见领袖未合作,则不进行信息量和声望值的变化;每一轮次演化过程中,中心个体根据自身已更新的所拥有信息量计算出自身选择合作行为的概率并进行判断,若中心个体的自身所拥有信息量没有促使中心个体选择合作,则通过个体和群体态度因素对个体进行分析,采取奖惩机制分析其是否有合作倾向和进行合作的机会;所述奖惩机制演化博弈模型构建方法记录每个个体的行为和态度,对网络中的中心个体的行为选择根据个体邻居态度和自身态度进行适应性调整;假设社会群体以合作行为为主,根据邻居态度对受压力个体行为进行更新:1若个体态度上采取合作策略且行为上采取背叛策略,则根据其邻居个体中观点合作数量占比来判断是否更改中心个体行为;2对于采取其他行为和态度策略的个体,视为所受邻居态度影响较小,知行不合一压力较小;根据中心个体自身态度对知行不合一个体进一步做个体态度策略更新:1若中心个体行为和态度策略不一致,则根据其邻居个体中合作态度数量占比来判断是否更改中心个体态度;2符合知行合一个体不受自我压力;每一轮次中心个体根据自身态度或群体态度判断采取背叛行为策略时,中心个体需考虑一次适应度的影响;构建基于态度行为的奖惩机制模型收益矩阵,依照稳定状态门限对中心个体的声望值进行奖励或惩罚:1若个体在态度和行为上统一策略,则进行知行合一奖励,其中选择全合作,完全符合社会群体主流倾向,对其进行较大奖励Δ1;全背叛不符合社会群体倾向,但促进了网络稳定,进行较小奖励Δ32若个体在态度或行为有趋向合作的潜在倾向,则对其进行适量奖励Δ2;3若个体在行为策略上选择背叛策略,则对其进行惩罚c;所述外部事件信息流入机制考虑网络中个体的自主性和博弈个体的有限理性: 所述奖惩机制演化博弈模型构建方法基于态度行为的奖惩机制下的策略收益矩阵为: 通过计算中心个体选择不同行为策略的期望和行为策略平均期望,得出中心个体选择合作行为策略的复制动态方程:并对其求偏导得出:当Δ2-Δ3<0且p<p0时,fqp,q1<0,故q1=0为稳定平衡状态,即中心个体会选择在行为上背叛策略;当Δ2-Δ3<0且p>p0时,fqp,q2<0,故q2=1为稳定平衡状态,中心个体会选择在行为上合作的策略;当Δ2-Δ3>0时,而1-p>0,所以满足fqp,q2<0,q2=1为稳定平衡状态,中心个体也会在行为上选择合作策略,得出社交网络的平衡稳定状态要求,确定仿真时各参数的关系,其中p、q分别为中心个体在态度和行为策略上选择合作的人数频率。

全文数据:

权利要求:

百度查询: 西安电子科技大学 奖惩机制演化博弈模型构建方法、系统及应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。