买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】机器人控制系统和用于训练所述机器人控制系统的方法_西门子股份公司_201980102596.7 

申请/专利权人:西门子股份公司

申请日:2019-09-30

公开(公告)日:2024-04-12

公开(公告)号:CN114761182B

主分类号:B25J9/16

分类号:B25J9/16;G06N3/008;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2022.08.02#实质审查的生效;2022.07.15#公开

摘要:本发明提供了一种机器人控制系统10和一种用于训练该机器人控制系统的方法。所公开的实施例通过由常规反馈控制器18和RL控制器22生成的相应控制信号20、24之间的动态自适应交互来对强化学习RL和常规控制进行适度的混合利用。此外,所公开的实施例通过有效使用与真实世界传感器和执行器数据54交织的虚拟传感器和执行器数据60来利用用于训练控制策略的迭代方法。这对于减少训练样本量以满足用于常规反馈控制器和强化学习控制器的混合控制策略是有效的。所公开的实施例能够用在各种各样工业自动化应用中。

主权项:1.一种机器人控制系统,包括:一组传感器,所述组传感器可操作地耦合到由所述机器人控制系统控制的机器人;和控制器,所述控制器响应于来自所述组传感器的信号,所述控制器包括:常规反馈控制器,所述常规反馈控制器被配置用于根据涉及用于控制给定机器人的轨迹所涉及的身体运动方程的明确定义的常规反馈控制技术来生成常规反馈控制信号;强化学习控制器,所述强化学习控制器被配置用于生成强化学习控制信号;比较器,所述比较器被配置用于对所述常规反馈控制信号与所述强化学习控制信号的正交性进行比较,其中,所述比较器被配置用于提供指示所述常规反馈控制信号与所述强化学习控制信号之间的正交性关系的信号;其中,所述强化学习控制器包括奖励函数,所述奖励函数响应于指示所述常规反馈控制信号与所述强化学习控制信号之间的正交性关系的信号,其中,指示所述常规反馈控制器信号与所述强化学习控制器信号的相互依赖性的正交性关系通过所述奖励函数进行惩罚,从而避免了所述常规反馈控制器与所述强化学习控制器之间的控制冲突,所述强化学习控制器的所述奖励函数被配置用于基于所述常规反馈控制信号和所述强化学习控制信号对满足所述奖励函数的相应贡献来生成一串自适应权重;和信号组合器,所述信号组合器被配置用于基于由所述强化学习控制器的所述奖励函数生成的一串自适应权重来自适应地组合所述常规反馈控制信号和所述强化学习控制信号,其中,所述信号组合器被配置用于提供所述常规反馈控制信号和所述强化学习控制信号的自适应组合控制信号,所述自适应组合控制信号被配置用于在所述机器人执行一系列任务时控制所述机器人。

全文数据:

权利要求:

百度查询: 西门子股份公司 机器人控制系统和用于训练所述机器人控制系统的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。