恭喜清华大学贾理淦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜清华大学申请的专利基于约束奖励的深度强化学习四足机器人运动控制方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119512184B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510082218.4,技术领域涉及:G05D1/49;该发明授权基于约束奖励的深度强化学习四足机器人运动控制方法及系统是由贾理淦;匡敏驰;周联盟;张晨;何世玉;孔永昌设计研发完成,并于2025-01-20向国家知识产权局提交的专利申请。
本基于约束奖励的深度强化学习四足机器人运动控制方法及系统在说明书摘要公布了:本发明公开了一种基于约束奖励的深度强化学习四足机器人运动控制方法及系统,建立四足机器人深度强化学习的仿真训练环境;确定仿真训练环境的奖励函数、域随机化参数和成本约束函数;基于机器人信息和第一模拟环境信息,在仿真训练环境中通过奖励函数和成本约束函数对初始策略网络模型进行训练,得到训练完成的策略网络模型;建立推理测试环境,并将训练完成的策略网络模型部署至推理测试环境进行模型推理测试调优,得到目标策略网络模型;将目标策略网络模型部署至四足机器人中,以对四足机器人进行运动控制。本发明降低了仿真训练环境与真实环境的差异,使得四足机器人在真实环境中被目标策略网络模型稳定控制。
本发明授权基于约束奖励的深度强化学习四足机器人运动控制方法及系统在权利要求书中公布了:1.一种基于约束奖励的深度强化学习四足机器人运动控制方法,其特征在于,所述方法包括:建立四足机器人深度强化学习的仿真训练环境,其中,所述仿真训练环境包括所述四足机器人的机器人信息和第一模拟环境信息;确定所述仿真训练环境的奖励函数、域随机化参数和成本约束函数;基于所述机器人信息和所述第一模拟环境信息,在所述仿真训练环境中通过所述奖励函数和所述成本约束函数对初始策略网络模型进行训练,得到训练完成的策略网络模型;建立推理测试环境,并将所述训练完成的策略网络模型部署至所述推理测试环境进行模型推理测试调优,得到目标策略网络模型;将所述目标策略网络模型部署至所述四足机器人中,以对所述四足机器人进行运动控制;其中,根据马尔可夫决策过程设计所述仿真训练环境的奖励函数,所述奖励函数,包括: =λw1rtlv+λw2rtav+λw3rfat+λw4rcc+λw5rbh+λw6rda+λw7rso其中,所述rtlv为计算前进速度跟踪,所述rtav为计算角速度跟踪,所述rfat为计算足端滞空时间,所述rcc为检测是否发生碰撞,所述rbh为计算机身高度与目标高度的差值,所述rda为关节加速度惩罚,所述rso为计算关节位置与软限制(softlimit)的差值,所述λwi为第i个奖励函数值的放缩因子;其中,;;;;;;;为实际仿真中的速度,为目标速度;为仿真的角速度,减为目标角速度;为仿真的抬腿时间,为目标时间;rcc为否碰撞的判断;为仿真中的高度,为目标高度;为12个关节的加速度;为当前位置与目标位置的差值,p为机器人信息中配置的限制值;所述成本约束函数,包括:C=cp+ct+cd其中,所述cp为计算关节位置与第一限制阈值的差值,所述ct为计算关节扭矩与第二限制阈值的差值,所述cd为计算关节速度与第三限制阈值的差值,、和为对应的比例系数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学,其通讯地址为:100084 北京市海淀区清华园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。