申请/专利权人:渊慧科技有限公司
申请日:2022-08-12
公开(公告)日:2024-04-09
公开(公告)号:CN117859135A
主分类号:G06N3/0455
分类号:G06N3/0455;G06N3/084;G06N3/092
优先权:["20210824 US 17/410,689","20220512 US 63/341,343"]
专利状态码:在审-实质审查的生效
法律状态:2024.04.26#实质审查的生效;2024.04.09#公开
摘要:包括在计算机存储介质上编码的计算机程序的方法、系统和装置,用于使用动作选择神经网络来选择要由代理执行以与环境交互的动作。在一个方面,一种方法包括,在时间步骤序列中的每个时间步骤:生成到所述当前时间步骤为止由代理在环境中执行的任务的状态的当前表示作为数据元素序列;自回归地生成表示要由所述代理在所述当前时间步骤执行的当前动作的数据元素序列;以及在自回归地生成表示当前动作的数据元素的序列之后,使代理在当前时间步骤执行当前动作。
主权项:1.一种由一个或多个计算机执行的用于使用动作选择神经网络来选择要由代理执行以与环境交互的动作的方法,所述方法包括,在时间步骤序列中的每个时间步骤:生成到所述当前时间步骤为止由所述代理在所述环境中执行的任务的状态的当前表示作为数据元素序列;自回归地生成表示要由所述代理在所述当前时间步骤执行的当前动作的数据元素序列,包括,对于从表示所述当前动作的所述数据元素序列中的第一位置开始的每个位置:使用所述动作选择神经网络处理所述任务的状态的当前表示,以生成可能的数据元素集合上的分数分布;根据所述分数分布来选择用于表示所述当前动作的所述数据元素序列中的所述位置的数据元素;以及通过将用于所述位置的所选择的数据元素级联到所述任务的所述状态的所述当前表示来更新所述任务的所述状态的所述当前表示;以及在自回归地生成表示所述当前动作的所述数据元素序列之后,使所述代理在所述当前时间步骤执行所述当前动作。
全文数据:
权利要求:
百度查询: 渊慧科技有限公司 自回归地生成定义要由代理执行的动作的数据元素序列
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。