买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】确定执行设备的动作选择方针_支付宝(杭州)信息技术有限公司_202080004369.3 

申请/专利权人:支付宝(杭州)信息技术有限公司

申请日:2020-04-02

公开(公告)日:2021-03-19

公开(公告)号:CN112533681A

主分类号:A63F13/56(20060101)

分类号:A63F13/56(20060101);G06N3/08(20060101)

优先权:

专利状态码:在审-实质审查的生效

法律状态:2021.04.06#实质审查的生效;2021.03.19#公开

摘要:描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置,包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。获得指定了针对所述子任务序列中的子任务的策略神经网络SNN的数据。SNN接收包括由达到所述子任务的初始状态的动作序列的输入,并预测所述执行设备针对所述子任务的动作选择方针。所述SNN是基于针对所述子任务序列中该子任务之后的下一个子任务的值神经网络VNN来训练的。确定向SNN的输入。所述输入包括达到所述子任务的子任务初始状态的动作序列。基于所述SNN的输出确定用于完成所述子任务的动作选择方针。

主权项:1.一种计算机实现的方法,用于生成动作选择方针,以促使执行设备在包括所述执行设备以及一个或多个其他设备的环境中完成任务,所述方法包括:获得表示被划分为子任务序列的任务的数据,其中:所述任务包括任务初始状态、多个非任务终点状态和多个任务终点状态,其中,每个任务终点状态是由所述执行设备以及所述一个或多个其他设备在所述多个非任务终点状态的子集下采取的动作序列导致的,并且所述多个任务终点状态具有所述任务终点状态下的对应奖励,所述子任务序列中的每个子任务包括所述子任务的一个或多个子任务初始状态及多个子任务终点状态,并且除了所述子任务序列中的最后一个子任务外,所述子任务的所述多个子任务终点状态是所述子任务序列中在所述子任务之后的下一个子任务的多个子任务初始状态,获得指定了针对所述子任务序列中的指定子任务的策略神经网络SNN的数据,其中,针对所述指定子任务的SNN接收包括由达到所述指定子任务的子任务初始状态的所述执行设备以及所述一个或多个其他设备采取的动作序列的输入,并预测所述执行设备针对所述指定子任务的动作选择方针,针对所述指定子任务的SNN是基于针对所述子任务序列中该子任务之后的下一个子任务的值神经网络VNN来训练的,针对所述指定子任务的VNN接收包括所述执行设备以及所述一个或多个其他设备达到所述下一个子任务的子任务初始状态的达到概率的输入,并预测所述执行设备在所述下一个子任务的子任务初始状态下的奖励;确定向针对所述指定子任务的SNN的指定输入,其中,所述输入包括由达到所述指定子任务的子任务初始状态的所述执行设备以及所述一个或多个其他设备采取的指定动作序列;以及利用向针对所述指定子任务的SNN的所述指定输入,基于针对所述指定子任务的SNN的输出来确定用于完成所述指定子任务的动作选择方针。

全文数据:

权利要求:

百度查询: 支付宝(杭州)信息技术有限公司 确定执行设备的动作选择方针

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。