买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】用于自动影响执行器的方法和设备_罗伯特·博世有限公司_202010429169.4 

申请/专利权人:罗伯特·博世有限公司

申请日:2020-05-20

公开(公告)日:2020-11-24

公开(公告)号:CN111984000A

主分类号:G05D1/00(20060101)

分类号:G05D1/00(20060101);G05D1/02(20200101);G05B13/04(20060101);G06N3/08(20060101);G06N3/04(20060101)

优先权:["20190521 DE 102019207410.3"]

专利状态码:在审-实质审查的生效

法律状态:2022.06.14#实质审查的生效;2020.11.24#公开

摘要:本发明涉及用于自动影响执行器的设备和方法,其中通过用于学习政策的探索策略提供执行器或其环境的至少一个状态,其中通过政策根据状态来定义用于自动影响执行器的动作,其中将状态值定义为在遵循政策下从状态出发实现的报酬总和的期望值,其中将状态动作值定义为在状态下首先执行任意动作且接着执行政策时实现的报酬总和的期望值,其中根据状态值与状态动作值之间的差定义优势,其中根据动作和状态,通过多个彼此独立的人工神经网络定义多个优势,其中用于状态的政策定义使关于多个优势的分布的经验平均值最大化的动作,其中探索策略预给定局部最大化上置信界限的至少一个状态,其中根据关于多个优势的分布的经验平均值和方差来定义上置信界限。

主权项:1.用于自动地影响执行器(108)、特别是机器人、机器、至少部分自主的车辆、工具或其一部分的方法,其特征在于,通过用于学习政策的探索策略提供(300)所述执行器(108)或所述执行器(108)的环境的至少一个状态,其中通过所述政策根据所述状态来定义(308)用于自动影响所述执行器(108)的动作,其中将状态值定义为在遵循所述政策的情况下从所述状态出发实现的报酬总和的期望值,其中将状态动作值定义为在所述状态下首先执行任意动作并且接着执行所述政策时所实现的报酬总和的期望值,其中根据所述状态值与所述状态动作值之间的差来定义优势,其中根据所述动作和所述状态,通过多个彼此独立的人工神经网络定义多个优势,其中用于所述状态的所述政策定义使得关于所述多个优势的分布的经验平均值最大化的动作,其中所述探索策略预给定局部最大化上置信界限的至少一个状态,其中根据关于所述多个优势的分布的经验平均值和方差来定义所述上置信界限。

全文数据:

权利要求:

百度查询: 罗伯特·博世有限公司 用于自动影响执行器的方法和设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。