买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】确定执行设备的动作选择方针_创新先进技术有限公司_201980039221.0 

申请/专利权人:创新先进技术有限公司

申请日:2019-05-15

公开(公告)日:2021-03-09

公开(公告)号:CN112470123A

主分类号:G06F9/455(20060101)

分类号:G06F9/455(20060101)

优先权:

专利状态码:有效-授权

法律状态:2023.09.05#授权;2021.03.26#实质审查的生效;2021.03.09#公开

摘要:本文公开了用于为执行设备生成动作选择方针ASP的方法、系统和装置。一种方法包括:获得当前迭代中的ASP;获得当前状态下每个动作的相应的第一奖励;基于各个动作的相应的第一奖励和ASP来计算当前状态的第一奖励;基于动作的相应的第一奖励与当前状态的第一奖励之间的差来计算每个动作的相应遗憾值;基于当前迭代中每个动作的相应遗憾值来计算增量ASP;基于增量ASP来计算当前状态的第二奖励;基于当前状态的第二奖励确定下一次迭代中的ASP;以及根据ASP来控制执行设备的各个动作。

主权项:1.一种执行设备的计算机实现的方法,用于生成动作选择方针,以在包括所述执行设备以及一个或多个其他设备的环境中完成任务,所述方法包括:在多次迭代中的当前迭代,获得所述当前迭代中的动作选择方针,其中,所述动作选择方针指定所述执行设备从当前状态下的多个可能动作中选择一个动作的相应概率,其中,所述当前状态是由所述执行设备在前一状态下采取的前一动作导致的,并且当所述执行设备在所述当前状态下时,所述多个可能动作中的每个动作如果被所述执行设备执行,则会导致相应的下一状态;获得所述当前状态下每个动作的相应的第一奖励,其中,每个动作的相应的第一奖励表示由该动作带来的有助于完成任务的收益;基于各个动作的相应的第一奖励和所述当前迭代中的动作选择方针来计算所述当前状态的第一奖励,其中,所述当前状态的第一奖励表示由所述当前状态带来的有助于完成任务的收益;基于所述动作的相应的第一奖励与所述当前状态的第一奖励之间的差来计算所述多个可能动作中的每个动作的相应遗憾值;基于所述当前迭代中每个动作的相应遗憾值而不是所述当前迭代之前的任何迭代中每个动作的任何遗憾值来计算增量动作选择方针,其中,所述增量动作选择方针用于确定下一次迭代中的动作选择方针;基于各个动作的相应的第一奖励和所述增量动作选择方针来计算所述当前状态的第二奖励,其中,所述当前状态的第二奖励包括所述下一次迭代中的动作选择方针的部分信息;基于所述当前状态的第二奖励确定所述下一次迭代中的动作选择方针;以及根据所述动作选择方针来控制所述执行设备的各个动作。

全文数据:

权利要求:

百度查询: 创新先进技术有限公司 确定执行设备的动作选择方针

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。