【发明授权】一种对抗式模仿学习中奖励函数的选择方法_清华大学深圳国际研究生院_202010323155.4

导航：龙图腾网> 最新专利技术> 一种对抗式模仿学习中奖励函数的选择方法_清华大学深圳国际研究生院_202010323155.4

申请/专利权人：清华大学深圳国际研究生院

申请日：2020-04-22

公开（公告）日：2023-06-30

公开（公告）号：CN111401556B

主分类号：G06N3/084

分类号：G06N3/084;G06N3/094;G06N3/048;G06N3/042;G06N3/045;G06N3/063

优先权：

专利状态码：有效-授权

法律状态：2023.06.30#授权;2020.08.04#实质审查的生效;2020.07.10#公开

摘要：本发明提供一种对抗式模仿学习中奖励函数的选择方法，包括如下步骤：构建参数为θ的策略网络、参数为w的判别网络和至少两个奖励函数；获取专家策略下的示教数据并存入包含专家轨迹的专家数据缓存器中；控制策略网络的输入为仿真环境返回的状态，输出为决策动作；判别网络利用专家策略下的状态动作对和策略网络的状态动作对进行参数的更新；在计算奖励的阶段，判别网络的输入是策略网络的状态动作对，输出值是经过奖励函数计算得到的奖励值；根据不同奖励函数的性能指标的大小选择当前任务的奖励函数；保存与选择的奖励函数对应的策略网络的参数。智能体在不同奖励函数的指导下学习，进而在具体任务场景中依据性能评价指标挑选出最优奖励函数。

主权项：1.一种对抗式模仿学习中奖励函数的选择方法，其特征在于，包括如下步骤：S1：构建参数为θ的策略网络π、参数为w的判别网络D和至少两个奖励函数；S2：获取专家策略下的示教数据并存入包含专家轨迹的专家数据缓存器BEst,at中，t是当前时间步；S3：控制所述策略网络的输入为仿真环境Env返回的状态st，输出为决策动作at；所述判别网络利用专家策略下的状态动作对st,atE和所述策略网络的状态动作对st,atπ进行参数的更新；在计算奖励的阶段，所述判别网络的输入是所述策略网络的状态动作对st,atπ，输出值是经过所述奖励函数计算得到的奖励值；根据所述奖励函数取值区间的不同设计6个奖励函数；所述奖励函数为：r1x＝x＝logσx-log1-σxr2x＝exr3x＝-e-xr4x＝σxr5x＝-log1-σxr6x＝logσx其中，x是所述判别网络的输出，是sigmoid函数；S4：根据不同所述奖励函数的性能指标的大小选择当前任务的奖励函数，其过程包括：S41：初始化多个仿真环境Envi、策略网络πi和判别网络Di，并同时开启训练进程，其中i＝0,1,...6；S42：在每个训练进程中，使用当前所述策略网络π与所述仿真环境Env进行交互，将当前时间步的状态动作对存入策略网络缓存器Bπst,at中；S43：从所述策略网络缓存器Bπst,at中采样得到当前策略下的状态动作轨迹st,atπ，从所述专家数据缓存器BEst,at中采样得到专家状态动作轨迹st,atE，并通过损失函数DJS对所述判别网络D的梯度下降以优化参数w：其中，w代表判别网络参数，αd代表判别网络参数的学习率，DJS代表判别网络损失函数，s,aπ和s,aE分别代表从策略网络缓存器Bπst,at和专家数据缓存器st,atE中采样得到的状态动作轨迹；S44：根据不同所述奖励函数的具体形式，在训练过程中计算每一步的奖励值rt，并存到奖励值rt的策略网络缓存器Bπst,at,rt中；S45：根据优势函数计算每一时间步的优势值At，并存到优势值At的策略网络缓存器Bπst,at,rt,At中；S46：根据近端策略优化算法，并利用所述优势值At的策略网络缓存器Bπst,at,rt,At中的数据按照梯度下降的方式对所述策略网络的参数θ进行更新：其中，θ代表策略网络参数，αp代表策略网络参数的学习率，代表策略网络目标函数；S47：计算相邻时间段内平均回报之差，若小于设定的阈值Thre，则停止此训练进程并保存网络参数θ和w，同时保存收敛时的时间步t、最近一段时间内的平均回报以及标准差S；否则返回步骤S42，重新执行步骤S42-S46；S48：待所有训练进程结束，根据最终收敛时保存的数据计算性能指标的大小，选择当前任务的奖励函数；S5：保存与选择的所述奖励函数对应的所述策略网络的参数。

全文数据：

权利要求：

百度查询：清华大学深圳国际研究生院一种对抗式模仿学习中奖励函数的选择方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

下一篇：一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

相关技术

一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

一种基于准零刚度原理的空气悬架及其结构设计与优化方法_江苏大学_202111438418.7

一种基于水蓼的富磷生物炭及其制备方法与应用_四川农业大学_202211532429.6

用于运行机动车的方法、调节装置和机动车_奥迪股份公司_202110617439.9

一种基于红外检测技术的探测装置及使用方法_黎明职业大学_201911007934.7

车载电动轮椅装载装置_洛阳和合电子科技有限公司_202111539605.4

用于控制空调的方法及装置、空调_青岛海尔空调电子有限公司_202210048335.5

一种风机通风量检测方法及装置_北京农业信息技术研究中心_202110665511.5

燃料电池以及燃料电池的制造方法_丰田自动车株式会社_202110209899.8

双电源双炉体切换开关的自动化控制系统_苏州振湖电炉有限公司_202111432710.8

一种即时检验抗凝药物监测系统_北京倍肯恒业科技发展股份有限公司_202310581047.0

中相关技术

中冷器、汽车中冷器系统、温度控制方法以及汽车_重庆小康动力有限公司_202410130818.9

一种MDA中框的制造方法及MDA中框_上海龙旗智能科技有限公司_202410134508.4

具有中孔GaN DBR的中孔GaN基LED的制备方法_西安工程大学_202410122154.1

信号处理电路中的增益校正_ams传感器德国有限公司_201980086342.0

露天境界中公路扩展的方法_中核第四研究设计工程有限公司_202410167818.6

网格压缩中的纹理坐标预测_腾讯美国有限责任公司_202380013779.8

减少衣物中残留水的方法_美国陶氏有机硅公司_202280064888.8

民爆药卷中包机_湖南金能自动化设备有限公司_201910323987.3

术中对准评估系统和方法_格罗伯斯医疗有限公司_201880056818.1

计算系统中的安全通信_苹果公司_202280061777.1

奖励相关技术

奖励失调病症的预防和/或治疗_鲁汶大学_202280063270.X

一种基于奖励插补的流式优惠券推荐方法_中国人民大学_202410059157.5

一种基于自监督强化学习的即时奖励学习方法_之江实验室_202410339613.1

一种基于强化学习的自动控制系统奖励优化方法及系统_武汉大学_202311845358.X

一种应用于中介服务选取的业务奖励系统和方法_浪潮云信息技术股份公司_202010848109.6

一种基于轨迹优化奖励的云计算任务自动调度方法_天翼云科技有限公司_202311712673.5

奖励模型处理方法、电子设备、介质和计算机程序产品_腾讯科技(深圳)有限公司_202011407855.8

一种交易系统中奖励金额发放的测试方法及装置_云账户技术(天津)有限公司_202410269929.8

一种贸易问题线上问答积分奖励管理方法及系统_成都信通信息技术有限公司_202410275693.9

游戏中奖励发放方法、装置、设备及计算机可读存储介质_网易(杭州)网络有限公司_201911338709.1

学习相关技术

基于改进的核极限学习机和GAN的自适应学习方法_湘潭大学_201910043961.3

机器学习模型运用管理系统以及机器学习模型运用管理方法_川崎重工业株式会社_202080017363.X

基于图对比学习的城市异构实体联合表征学习方法_北京航空航天大学_202311741013.X

在线学习问答方法及相关装置_深圳青豆教育科技有限公司_202311797251.2

一种图文吊挂学习装置_西北大学现代学院_202323019165.7

基于强化学习和任务感知随机游走的深度学习任务调度方法和系统_北京大学_202211398671.9

一种基于强化学习和迁移学习的命名实体识别方法和装置_广东省人民医院_202410182078.3

食品污染预测装置、推理装置、机器学习装置、食品污染预测方法、推理方法及机器学习方法_东洋制罐集团控股株式会社_202280061922.6

以医疗数据为基础的深度学习模型的学习及推论方法、程序及装置_美迪科诶爱有限公司_202280063391.4

针对深度学习后门攻击防御的性能评估方法_南京理工大学_202410056834.8

龙图腾网&IPTOP

【发明授权】一种对抗式模仿学习中奖励函数的选择方法_清华大学深圳国际研究生院_202010323155.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务