买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】使用相对变分内在控制来控制代理_渊慧科技有限公司_202180062327.X 

申请/专利权人:渊慧科技有限公司

申请日:2021-09-10

公开(公告)日:2023-05-16

公开(公告)号:CN116134451A

主分类号:G06N3/0464

分类号:G06N3/0464;G06N3/08

优先权:["20200910 US 63/076,876"]

专利状态码:在审-实质审查的生效

法律状态:2023.06.06#实质审查的生效;2023.05.16#公开

摘要:方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于训练用于在使用相对变分内在控制来控制代理中使用的策略神经网络。在一个方面,一种方法包括:从技能集合中选择技能;在策略神经网络以所选择的技能为条件的同时,通过使用策略神经网络控制代理来生成轨迹;使用相对鉴别器神经网络来处理初始观察和最后观察以生成相对分数;使用绝对鉴别器神经网络来处理最后观察以生成绝对分数;根据与所选择的技能相对应的绝对分数和与所选择的技能相对应的相对分数来生成对轨迹的奖励;以及基于对轨迹的奖励来训练策略神经网络。

主权项:1.一种用于训练用于在控制与环境交互的代理中使用的策略神经网络的方法,其中,所述策略神经网络被配置为接收策略输入,所述策略输入包括表征所述环境的状态的输入观察和从技能集合中识别技能的数据,并且所述策略神经网络被配置为生成定义用于控制所述代理的控制策略的策略输出,所述方法包括重复地执行操作,所述操作包括:从所述技能集合中选择技能;在所述策略神经网络以所选择的技能为条件的同时,通过使用所述策略神经网络控制所述代理来生成轨迹,所述轨迹包括在所述代理在使用以所选择的技能为条件的所述策略神经网络被控制的同时与所述环境交互时接收到的观察序列;使用相对鉴别器神经网络来处理相对输入,所述相对输入包括i所述序列中的初始观察和ii所述序列中的最后观察,所述相对鉴别器神经网络被配置为处理所述相对输入以生成相对输出,所述相对输出包括与所述技能集合中的每个技能相对应的相应相对分数,每个相对分数表示在所述轨迹被生成的同时所述策略神经网络以对应技能为条件的估计可能性;使用绝对鉴别器神经网络来处理绝对输入,所述绝对输入包括所述序列中的所述最后观察,所述绝对鉴别器神经网络被配置为处理所述绝对输入以生成绝对输出,所述绝对输出包括与所述技能集合中的每个技能相对应的相应绝对分数,每个绝对分数表示在所述轨迹被生成的同时所述策略神经网络以对应技能为条件的估计可能性;根据与所选择的技能相对应的所述绝对分数和与所选择的技能相对应的所述相对分数来生成对所述轨迹的奖励;以及基于对所述轨迹的所述奖励来训练所述策略神经网络。

全文数据:

权利要求:

百度查询: 渊慧科技有限公司 使用相对变分内在控制来控制代理

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。