【发明授权】策略网络训练方法及人形双足机器人步态控制方法_科大讯飞股份有限公司_202410040335.X

申请/专利权人：科大讯飞股份有限公司

申请日：2024-01-11

公开（公告）日：2024-04-26

公开（公告）号：CN117555339B

主分类号：G05D1/43

分类号：G05D1/43;G05D1/633;G05D1/644;G05D1/648;G05D109/12

优先权：

专利状态码：有效-授权

法律状态：2024.04.26#授权;2024.03.01#实质审查的生效;2024.02.13#公开

摘要：本发明涉及机器人自动化技术领域，提供一种策略网络训练方法及人形双足机器人步态控制方法，该训练方法采用深度强化学习方法得到目标策略网络，无需构建复杂的步态库，不需要增加额外的数据收集成本和计算代价，在不借助任何步态先验知识引导的情况下，通过引入包含有周期步态奖励、膝关节位置跟踪奖励和上肢关节位置跟踪奖励中的至少一个的步态奖励，可以使目标策略网络具有控制人形双足机器人实现自然、平稳、对称、协调的行走步态的功能，提升了目标策略网络的鲁棒性和抗干扰性。

主权项：1.一种策略网络训练方法，其特征在于，包括：获取人形双足机器人样本在当前时刻的样本信息，所述样本信息包括样本状态观测值以及样本速度命令；基于所述样本信息，应用价值网络，对策略网络进行深度强化学习，得到目标策略网络；其中，所述目标策略网络用于对行走过程中的人形双足机器人进行步态控制；所述深度强化学习中采用的奖励函数包括步态奖励，所述步态奖励包括上肢关节位置跟踪奖励，或者包括上肢关节位置跟踪奖励，以及周期步态奖励和膝关节位置跟踪奖励中的至少一个；所述样本状态观测值包括双脚的速度、双腿的膝关节位置以及双臂的肩关节位置；所述上肢关节位置跟踪奖励基于所述双臂的肩关节位置以及肩关节参考位置确定；所述人形双足机器人的步态周期包括两个双脚支撑阶段和两个单脚支撑阶段；所述双臂的肩关节参考位置基于如下步骤确定：基于所述步态周期内各时刻的步态相位，以及单个所述双脚支撑阶段的时长在所述步态周期内的相位占比，计算所述双臂的肩关节参考位置。

全文数据：

权利要求：

百度查询：科大讯飞股份有限公司策略网络训练方法及人形双足机器人步态控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种转向管柱固定工装_芜湖普威技研有限公司_202311573386.0

下一篇：用于超声速进发直连风洞试验的发动机台架及设计方法_中国空气动力研究与发展中心高速空气动力研究所_202410420425.1

相关技术

一种转向管柱固定工装_芜湖普威技研有限公司_202311573386.0

用于超声速进发直连风洞试验的发动机台架及设计方法_中国空气动力研究与发展中心高速空气动力研究所_202410420425.1

用于制造一次性杯状件的机器_MS2责任有限公司_202280065197.X

设备控制方法、装置、配电设备及存储介质_深圳市正浩创新科技股份有限公司_202410171534.4

一种探测烟雾粒度及浓度的方法_烟台创为新能源科技股份有限公司_202410159903.8

一种CNT复合纤维及其制备方法和应用_中国科学院苏州纳米技术与纳米仿生研究所_202311856225.2

混合动力自动手动变速器_伊顿康明斯自动传输技术有限责任公司_202280063792.X

一种物品投递方法、装置、设备及介质和物品投递系统_何永安_202410173109.9

一种非均匀大气波导修正折射率的测算方法及系统_南京信息工程大学_202410123152.4

一种矿井提升机防止跑车的控制方法与装置_洛阳九亿重工集团有限公司_202410421104.3

一种电能表故障数据监测系统及数据存储介质_中电装备山东电子有限公司_202410411878.8

一种设备锁定方法、装置及电子设备_联想(北京)有限公司_202410116925.6

龙图腾网&IPTOP

【发明授权】策略网络训练方法及人形双足机器人步态控制方法_科大讯飞股份有限公司_202410040335.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务