买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】确定执行设备的动作选择方针_支付宝(杭州)信息技术有限公司_202080003374.2 

申请/专利权人:支付宝(杭州)信息技术有限公司

申请日:2020-04-02

公开(公告)日:2021-03-02

公开(公告)号:CN112437690A

主分类号:A63F13/56(20060101)

分类号:A63F13/56(20060101);G06N3/08(20060101)

优先权:

专利状态码:在审-实质审查的生效

法律状态:2021.03.19#实质审查的生效;2021.03.02#公开

摘要:描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置,包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。对于子任务序列中除第一个子任务之外的指定子任务,训练值神经网络VNN。该VNN接收包括达到指定子任务的子任务初始状态的达到概率的输入,并预测执行设备在指定子任务的子任务初始状态下的奖励。基于VNN训练针对指定子任务之前的先前子任务的策略神经网络SNN。该SNN接收包括达到先前子任务的子任务状态的动作序列,并预测执行设备在先前子任务的子任务状态下的动作选择方针。

主权项:1.一种计算机实现的方法,用于生成动作选择方针,以促使执行设备在包括所述执行设备以及一个或多个其他设备的环境中完成任务,所述方法包括:获得表示被划分为子任务序列的任务的数据,其中:所述任务包括任务初始状态、多个非任务终点状态和多个任务终点状态,其中,每个任务终点状态是由所述执行设备以及所述一个或多个其他设备在所述多个非任务终点状态的子集下采取的动作序列导致的,并且所述多个任务终点状态具有所述任务终点状态下的对应奖励,所述子任务序列中的每个子任务包括所述子任务的一个或多个子任务初始状态及多个子任务终点状态,并且除了所述子任务序列中的最后一个子任务外,所述子任务的所述多个子任务终点状态是所述子任务序列中所述子任务之后的下一个子任务的多个子任务初始状态,对于所述子任务序列中除第一子任务之外的指定子任务,训练针对所述指定子任务的值神经网络VNN,其中,针对所述指定子任务的VNN接收包括所述执行设备以及所述一个或多个其他设备达到所述指定子任务的子任务初始状态的达到概率的输入,并预测所述执行设备在所述指定子任务的所述子任务初始状态下的奖励;以及基于针对所述指定子任务的VNN,训练针对所述子任务序列中所述指定子任务之前的先前子任务的策略神经网络SNN,其中,针对所述先前子任务的SNN接收包括由达到所述先前子任务的子任务状态的所述执行设备以及所述一个或多个其他设备采取的动作序列的输入,并预测所述执行设备在所述先前子任务的所述子任务状态下的动作选择方针。

全文数据:

权利要求:

百度查询: 支付宝(杭州)信息技术有限公司 确定执行设备的动作选择方针

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。