买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种双人马尔可夫零和博弈中的保收益决策方法_中国科学技术大学_202311742472.X 

申请/专利权人:中国科学技术大学

申请日:2023-12-18

公开(公告)日:2024-03-15

公开(公告)号:CN117708534A

主分类号:G06F18/20

分类号:G06F18/20;G06N7/01

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.02#实质审查的生效;2024.03.15#公开

摘要:本发明涉及一种双人马尔可夫零和博弈中的保收益决策方法,首先,初始化对手的类型、针对所有类型对手的纳什均衡策略、对手建模的数据池、所有对手的概率神经网络模型、采样策略、历史博弈轨迹、对手类型预测值、期望奖励值;其次,针对每一种类型的对手,预训练对应的纳什均衡策略;采样与所有类型对手的博弈数据,使用博弈数据更新所有类型对手的概率神经网络模型;然后,使用概率神经网络模型与历史博弈轨迹辨别对手类型;并根据对手类型,使用对应的纳什均衡策略进行博弈;最后,观察博弈过程的奖励值,并快速判别对手策略,根据对手策略使用相应的策略进行博弈。采用本方法可以使得智能体既能保证最低的博弈收益,又能获得更高的收益。

主权项:1.一种双人马尔可夫零和博弈中的保收益决策方法,其特征在于,包括:步骤S1:初始化对手的类型:其中M为对手总类型数,初始化我方智能体针对各种类型对手的纳什均衡策略对手建模的数据池所有对手的概率神经网络模型其中θ为概率神经网络的参数、st,分别代表了t时刻的状态、我方智能体的动作以及对手的动作,采样策略πS,历史博弈轨迹h,对手类型预测值期望奖励值R;步骤S2:针对每一种类型的对手预训练对应的纳什均衡策略步骤S3:执行采样策略πS采样与所有类型的对手进行对战的数据,存入到对手建模的数据池并使用数据池更新所有对手的概率神经网络模型;步骤S4:在线博弈开始后,更新历史博弈轨迹h,并根据概率神经网络模型与历史博弈轨迹辨别对手类型,更新对手类型预测值步骤S5:根据对手类型,使用相应的纳什均衡策略博弈;步骤S6:观察奖励值:若奖励震荡且低于预期奖励值R,表明对手使用固定策略或随机策略,进而快速判别对手的策略类型,规则如下:如果对手使用固定策略,在线训练出最优策略并使用最优策略与对手进行博弈;如果对手使用随机策略,保持纳什均衡策略与对手进行博弈;若奖励不震荡或大于等于预期奖励值R,表明对手使用理性策略,保持纳什均衡策略与对手进行博弈。

全文数据:

权利要求:

百度查询: 中国科学技术大学 一种双人马尔可夫零和博弈中的保收益决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。