申请/专利权人:科大讯飞股份有限公司
申请日:2024-01-11
公开(公告)日:2024-04-26
公开(公告)号:CN117555339B
主分类号:G05D1/43
分类号:G05D1/43;G05D1/633;G05D1/644;G05D1/648;G05D109/12
优先权:
专利状态码:有效-授权
法律状态:2024.04.26#授权;2024.03.01#实质审查的生效;2024.02.13#公开
摘要:本发明涉及机器人自动化技术领域,提供一种策略网络训练方法及人形双足机器人步态控制方法,该训练方法采用深度强化学习方法得到目标策略网络,无需构建复杂的步态库,不需要增加额外的数据收集成本和计算代价,在不借助任何步态先验知识引导的情况下,通过引入包含有周期步态奖励、膝关节位置跟踪奖励和上肢关节位置跟踪奖励中的至少一个的步态奖励,可以使目标策略网络具有控制人形双足机器人实现自然、平稳、对称、协调的行走步态的功能,提升了目标策略网络的鲁棒性和抗干扰性。
主权项:1.一种策略网络训练方法,其特征在于,包括:获取人形双足机器人样本在当前时刻的样本信息,所述样本信息包括样本状态观测值以及样本速度命令;基于所述样本信息,应用价值网络,对策略网络进行深度强化学习,得到目标策略网络;其中,所述目标策略网络用于对行走过程中的人形双足机器人进行步态控制;所述深度强化学习中采用的奖励函数包括步态奖励,所述步态奖励包括上肢关节位置跟踪奖励,或者包括上肢关节位置跟踪奖励,以及周期步态奖励和膝关节位置跟踪奖励中的至少一个;所述样本状态观测值包括双脚的速度、双腿的膝关节位置以及双臂的肩关节位置;所述上肢关节位置跟踪奖励基于所述双臂的肩关节位置以及肩关节参考位置确定;所述人形双足机器人的步态周期包括两个双脚支撑阶段和两个单脚支撑阶段;所述双臂的肩关节参考位置基于如下步骤确定:基于所述步态周期内各时刻的步态相位,以及单个所述双脚支撑阶段的时长在所述步态周期内的相位占比,计算所述双臂的肩关节参考位置。
全文数据:
权利要求:
百度查询: 科大讯飞股份有限公司 策略网络训练方法及人形双足机器人步态控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。