【发明授权】高效的离策略信用分配_硕动力公司_202080018859.9

导航：龙图腾网> 最新专利技术> 高效的离策略信用分配_硕动力公司_202080018859.9

申请/专利权人：硕动力公司

申请日：2020-02-24

公开（公告）日：2024-04-05

公开（公告）号：CN113544703B

主分类号：G06N3/00

分类号：G06N3/00;G06N3/092;G06N7/01

优先权：["20190305 US 62/813,937","20190516 US 62/849,007","20190523 US 62/852,258","20191015 US 16/653,890"]

专利状态码：有效-授权

法律状态：2024.04.05#授权;2023.05.09#著录事项变更;2021.11.09#实质审查的生效;2021.10.22#公开

摘要：提供了用于强化学习中高效的离策略信用分配ECA的系统和方法。ECA允许对离策略样本进行原则性的信用分配，从而提高样本效率和渐近性能。ECA的一个方面是将预期奖励的优化公式化为近似推理，其中策略近似于习得的先验分布，这导致了一种利用离策略样本的原则方法。还提供了其他特征。

主权项：1.一种强化学习中高效的离策略信用分配方法，所述方法包括：通过通信接口，接收包括多个上下文的训练数据集以及从实施一个或多个动作的一个或多个代理中生成的样本结果，其中所述一个或多个动作由学习模型根据与当前策略不相关的一个或多个策略响应于所述多个上下文中的上下文来生成，其中所接收的样本结果包括使所述一个或多个代理获得高奖励的成功的样本结果和使所述一个或多个代理获得零奖励的不成功的样本结果；通过处理器，基于在所述训练数据集上生成所述一个或多个动作的所述一个或多个策略的平均值来计算所述一个或多个动作的习得的先验分布；至少部分地基于所述习得的先验分布与所接收的样本结果来计算样本的一个或多个自适应权重，其中所接收的样本结果包含所述成功的样本结果和所述不成功的样本结果二者；使用所述一个或多个自适应权重生成梯度的估计；和使用所述梯度的估计，通过更新所述当前策略来训练所述学习模型。

全文数据：

权利要求：

百度查询：硕动力公司高效的离策略信用分配

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

下一篇：一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

相关技术

一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种园林绿化便携铲_马丽丽_202322375183.2

磨豆压力咖啡机自动压粉机构_浙江比依电器股份有限公司_202322521989.8

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种无缝钢管送料设备_宁波东进钢管有限公司_202322167126.5

龙图腾网&IPTOP

【发明授权】高效的离策略信用分配_硕动力公司_202080018859.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务