买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】高效的离策略信用分配_硕动力公司_202080018859.9 

申请/专利权人:硕动力公司

申请日:2020-02-24

公开(公告)日:2024-04-05

公开(公告)号:CN113544703B

主分类号:G06N3/00

分类号:G06N3/00;G06N3/092;G06N7/01

优先权:["20190305 US 62/813,937","20190516 US 62/849,007","20190523 US 62/852,258","20191015 US 16/653,890"]

专利状态码:有效-授权

法律状态:2024.04.05#授权;2023.05.09#著录事项变更;2021.11.09#实质审查的生效;2021.10.22#公开

摘要:提供了用于强化学习中高效的离策略信用分配ECA的系统和方法。ECA允许对离策略样本进行原则性的信用分配,从而提高样本效率和渐近性能。ECA的一个方面是将预期奖励的优化公式化为近似推理,其中策略近似于习得的先验分布,这导致了一种利用离策略样本的原则方法。还提供了其他特征。

主权项:1.一种强化学习中高效的离策略信用分配方法,所述方法包括:通过通信接口,接收包括多个上下文的训练数据集以及从实施一个或多个动作的一个或多个代理中生成的样本结果,其中所述一个或多个动作由学习模型根据与当前策略不相关的一个或多个策略响应于所述多个上下文中的上下文来生成,其中所接收的样本结果包括使所述一个或多个代理获得高奖励的成功的样本结果和使所述一个或多个代理获得零奖励的不成功的样本结果;通过处理器,基于在所述训练数据集上生成所述一个或多个动作的所述一个或多个策略的平均值来计算所述一个或多个动作的习得的先验分布;至少部分地基于所述习得的先验分布与所接收的样本结果来计算样本的一个或多个自适应权重,其中所接收的样本结果包含所述成功的样本结果和所述不成功的样本结果二者;使用所述一个或多个自适应权重生成梯度的估计;和使用所述梯度的估计,通过更新所述当前策略来训练所述学习模型。

全文数据:

权利要求:

百度查询: 硕动力公司 高效的离策略信用分配

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。