首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度强化学习的隐式对手建模方法_大连理工大学_202111316717.3 

申请/专利权人:大连理工大学

申请日:2021-11-09

公开(公告)日:2024-05-10

公开(公告)号:CN114154397B

主分类号:G06F30/27

分类号:G06F30/27;G06F18/214;G06N3/092;A63F13/822

优先权:

专利状态码:有效-授权

法律状态:2024.05.10#授权;2022.03.25#实质审查的生效;2022.03.08#公开

摘要:本发明公开了一种基于深度强化学习的隐式对手建模方法,属于多智能体强化学习方向的对手建模领域。本发明围绕动态博弈环境下的对手建模问题,利用深度强化学习技术提出了一种改进的隐式对手建模方法。该隐式建模方法不依赖于特定领域知识,能适应对手策略的动态变化,同时还解决了过度估计问题并具有较快的收敛速度。

主权项:1.一种基于深度强化学习的隐式对手建模方法,其特征在于,该方法包括以下步骤:步骤S1:初始化一个容量为N的经验池,用以存储算法训练过程中产生的交互经验;所述的交互经验包括s,o,a,r,s′,o′,其中s表示当前时间步的环境信息;o表示当前时间步的对手特征;a表示主智能体的动作;r表示主智能体执行动作a后得到的收益;s′表示下一时间步的环境信息,o′表示下一时间步的对手特征;步骤S2:选择DRON-DualFc2或DRON-DualMOE作为当前价值估计网络和目标价值估计网络的网络结构,然后将当前价值估计网络和目标价值估计网络随机初始化为相同的参数;重复执行步骤S3~S9M次,M为训练的轮数;所述网络结构通过输入的对手特征来进行隐式的对手建模从而使主智能体能够更好地理解对手的行为,其中对手特征建立在对对手能力的评估以及对对手近期采取动作的观察之上;所述对手特征在问答游戏中表征为对手曾经答题的数量、平均正确率;所述对手特征在足球游戏中表征为对手断球的频率、近期采取的动作;步骤S3:初始化博弈环境,包括环境信息和对手特征;初始化当前的时间步t为1;步骤S4:主智能体获取当前时间步的环境信息st和对手特征ot;主智能体以概率ε随机执行一个动作at,否则执行动作步骤S5:主智能体执行动作at后,从博弈环境中得到即时收益rt,下一个时间步的环境信息st+1和对手特征ot+1,并将智能体与环境交互产生的经验st,ot,at,rt,st+1,ot+1存进经验池中;步骤S6:从经验池中随机采样一个批次的经验;对该批次中的每一笔经验sj,oj,aj,rj,sj+1,oj+1,目标值yj按如下公式进行计算,其中j表示该笔经验对应的时间步: 步骤S7:按照公式2定义损失函数L,对当前价值估计网络的参数θt进行梯度下降; 步骤S8:每隔C个时间步,将目标价值估计网络的参数θ′t更新为当前价值估计网络的参数θt;步骤S9:如果st+1为非终止状态,则更新时间步t=t+1,重复执行步骤S4~S8;否则结束本轮训练。

全文数据:

权利要求:

百度查询: 大连理工大学 一种基于深度强化学习的隐式对手建模方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术