买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种对抗式模仿学习中奖励函数的选择方法_清华大学深圳国际研究生院_202010323155.4 

申请/专利权人:清华大学深圳国际研究生院

申请日:2020-04-22

公开(公告)日:2023-06-30

公开(公告)号:CN111401556B

主分类号:G06N3/084

分类号:G06N3/084;G06N3/094;G06N3/048;G06N3/042;G06N3/045;G06N3/063

优先权:

专利状态码:有效-授权

法律状态:2023.06.30#授权;2020.08.04#实质审查的生效;2020.07.10#公开

摘要:本发明提供一种对抗式模仿学习中奖励函数的选择方法,包括如下步骤:构建参数为θ的策略网络、参数为w的判别网络和至少两个奖励函数;获取专家策略下的示教数据并存入包含专家轨迹的专家数据缓存器中;控制策略网络的输入为仿真环境返回的状态,输出为决策动作;判别网络利用专家策略下的状态动作对和策略网络的状态动作对进行参数的更新;在计算奖励的阶段,判别网络的输入是策略网络的状态动作对,输出值是经过奖励函数计算得到的奖励值;根据不同奖励函数的性能指标的大小选择当前任务的奖励函数;保存与选择的奖励函数对应的策略网络的参数。智能体在不同奖励函数的指导下学习,进而在具体任务场景中依据性能评价指标挑选出最优奖励函数。

主权项:1.一种对抗式模仿学习中奖励函数的选择方法,其特征在于,包括如下步骤:S1:构建参数为θ的策略网络π、参数为w的判别网络D和至少两个奖励函数;S2:获取专家策略下的示教数据并存入包含专家轨迹的专家数据缓存器BEst,at中,t是当前时间步;S3:控制所述策略网络的输入为仿真环境Env返回的状态st,输出为决策动作at;所述判别网络利用专家策略下的状态动作对st,atE和所述策略网络的状态动作对st,atπ进行参数的更新;在计算奖励的阶段,所述判别网络的输入是所述策略网络的状态动作对st,atπ,输出值是经过所述奖励函数计算得到的奖励值;根据所述奖励函数取值区间的不同设计6个奖励函数;所述奖励函数为:r1x=x=logσx-log1-σxr2x=exr3x=-e-xr4x=σxr5x=-log1-σxr6x=logσx其中,x是所述判别网络的输出,是sigmoid函数;S4:根据不同所述奖励函数的性能指标的大小选择当前任务的奖励函数,其过程包括:S41:初始化多个仿真环境Envi、策略网络πi和判别网络Di,并同时开启训练进程,其中i=0,1,...6;S42:在每个训练进程中,使用当前所述策略网络π与所述仿真环境Env进行交互,将当前时间步的状态动作对存入策略网络缓存器Bπst,at中;S43:从所述策略网络缓存器Bπst,at中采样得到当前策略下的状态动作轨迹st,atπ,从所述专家数据缓存器BEst,at中采样得到专家状态动作轨迹st,atE,并通过损失函数DJS对所述判别网络D的梯度下降以优化参数w: 其中,w代表判别网络参数,αd代表判别网络参数的学习率,DJS代表判别网络损失函数,s,aπ和s,aE分别代表从策略网络缓存器Bπst,at和专家数据缓存器st,atE中采样得到的状态动作轨迹;S44:根据不同所述奖励函数的具体形式,在训练过程中计算每一步的奖励值rt,并存到奖励值rt的策略网络缓存器Bπst,at,rt中;S45:根据优势函数计算每一时间步的优势值At,并存到优势值At的策略网络缓存器Bπst,at,rt,At中;S46:根据近端策略优化算法,并利用所述优势值At的策略网络缓存器Bπst,at,rt,At中的数据按照梯度下降的方式对所述策略网络的参数θ进行更新: 其中,θ代表策略网络参数,αp代表策略网络参数的学习率,代表策略网络目标函数;S47:计算相邻时间段内平均回报之差,若小于设定的阈值Thre,则停止此训练进程并保存网络参数θ和w,同时保存收敛时的时间步t、最近一段时间内的平均回报以及标准差S;否则返回步骤S42,重新执行步骤S42-S46;S48:待所有训练进程结束,根据最终收敛时保存的数据计算性能指标的大小,选择当前任务的奖励函数;S5:保存与选择的所述奖励函数对应的所述策略网络的参数。

全文数据:

权利要求:

百度查询: 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。