【发明公布】用于自动影响执行器的方法和设备_罗伯特·博世有限公司_202010429169.4

导航：龙图腾网> 最新专利技术> 用于自动影响执行器的方法和设备_罗伯特·博世有限公司_202010429169.4

申请/专利权人：罗伯特·博世有限公司

申请日：2020-05-20

公开（公告）日：2020-11-24

公开（公告）号：CN111984000A

主分类号：G05D1/00(20060101)

分类号：G05D1/00(20060101);G05D1/02(20200101);G05B13/04(20060101);G06N3/08(20060101);G06N3/04(20060101)

优先权：["20190521 DE 102019207410.3"]

专利状态码：在审-实质审查的生效

法律状态：2022.06.14#实质审查的生效;2020.11.24#公开

摘要：本发明涉及用于自动影响执行器的设备和方法，其中通过用于学习政策的探索策略提供执行器或其环境的至少一个状态，其中通过政策根据状态来定义用于自动影响执行器的动作，其中将状态值定义为在遵循政策下从状态出发实现的报酬总和的期望值，其中将状态动作值定义为在状态下首先执行任意动作且接着执行政策时实现的报酬总和的期望值，其中根据状态值与状态动作值之间的差定义优势，其中根据动作和状态，通过多个彼此独立的人工神经网络定义多个优势，其中用于状态的政策定义使关于多个优势的分布的经验平均值最大化的动作，其中探索策略预给定局部最大化上置信界限的至少一个状态，其中根据关于多个优势的分布的经验平均值和方差来定义上置信界限。

主权项：1.用于自动地影响执行器（108）、特别是机器人、机器、至少部分自主的车辆、工具或其一部分的方法，其特征在于，通过用于学习政策的探索策略提供（300）所述执行器（108）或所述执行器（108）的环境的至少一个状态，其中通过所述政策根据所述状态来定义（308）用于自动影响所述执行器（108）的动作，其中将状态值定义为在遵循所述政策的情况下从所述状态出发实现的报酬总和的期望值，其中将状态动作值定义为在所述状态下首先执行任意动作并且接着执行所述政策时所实现的报酬总和的期望值，其中根据所述状态值与所述状态动作值之间的差来定义优势，其中根据所述动作和所述状态，通过多个彼此独立的人工神经网络定义多个优势，其中用于所述状态的所述政策定义使得关于所述多个优势的分布的经验平均值最大化的动作，其中所述探索策略预给定局部最大化上置信界限的至少一个状态，其中根据关于所述多个优势的分布的经验平均值和方差来定义所述上置信界限。

全文数据：

权利要求：

百度查询：罗伯特·博世有限公司用于自动影响执行器的方法和设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种书籍储存装置_滇西科技师范学院_202322370399.X

下一篇：一种砖块单元体幕墙系统_山东津单幕墙有限公司_202322061257.5

相关技术

一种书籍储存装置_滇西科技师范学院_202322370399.X

一种砖块单元体幕墙系统_山东津单幕墙有限公司_202322061257.5

一种采蜜车_蒙阴县吉民农机有限公司_202322248386.5

散热装置_佳必琪国际股份有限公司_202322246735.X

半挠折线路板_金禄电子科技股份有限公司_202321977750.5

一种自动化凝胶乳化装置_河南德源祥生物科技有限公司_202322371616.7

一种混凝土透光管防水结构_中建八局浙江建设有限公司_202321993321.7

一种服装生产加工用布料裁切机构_苏州鸿鑫纺织股份有限公司_202322142376.3

一种电动液压挖掘机用电机_山东得普达电机股份有限公司_202322187319.7

一种火龙果分级筛选设备_珠海市喜见农业发展有限公司_202322273859.7

一种超大载荷强制排绳卷扬机_江苏格雷特重工科技发展有限公司_202322292992.7

一种电极片组件、收纳结构及除颤仪_苏州维伟思医疗科技有限公司_202322021310.9

龙图腾网&IPTOP

【发明公布】用于自动影响执行器的方法和设备_罗伯特·博世有限公司_202010429169.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务