申请/专利权人:中国人民解放军军事科学院国防科技创新研究院
申请日:2021-09-13
公开(公告)日:2023-05-16
公开(公告)号:CN113967909B
主分类号:B25J9/16
分类号:B25J9/16
优先权:
专利状态码:有效-授权
法律状态:2023.05.16#授权;2022.02.15#实质审查的生效;2022.01.25#公开
摘要:本发明公开了一种基于方向奖励的机械臂智能控制方法,该方法包括:S1:确定机械臂的初始姿态,获取预定的目标点位置;S2:通过强化学习算法控制机械臂移动,以使得机械臂的末端执行器移动至预定的目标点位置;在S2中,强化学习算法为DDPG算法,强化学习算法设置有控制机械臂移动的奖励函数,奖励函数的公式如下:R=Rd+Rv+Rg。由此,本方法可以避免传统机械臂控制中的雅各比矩阵求逆问题和机械臂存在的奇异点问题,能够简化机械臂控制算法的设计。通过该方法驱动的机械臂具有较高的自主能力,而且机械臂控制系统可以在与环境交互的过程中自主到达预定的目标位置,能够增强机械臂控制的自主能力。
主权项:1.一种基于方向奖励的机械臂智能控制方法,其特征在于,所述方法包括:S1:确定机械臂的初始姿态,获取预定的目标点位置;S2:通过强化学习算法控制所述机械臂移动,以使得所述机械臂的末端执行器移动至所述预定的目标点位置;在所述S2中,所述强化学习算法为DDPG算法,所述强化学习算法设置有控制所述机械臂移动的奖励函数,所述奖励函数的公式如下:R=Rd+Rv+Rg其中,R表示总奖励;Rd表示所述机械臂的末端执行器运动的速度方向与所述预定的目标点位置的目标方向的夹角取负后的值;Rv表示所述机械臂的末端执行器运动的速度绝对值取负后的值;Rg表示所述机械臂的末端执行器是否到达所述预定的目标点位置范围内的奖励值,如果是,Rg=1,如果不是,Rg=0;在所述S2中,为提高所述机械臂的末端执行器移动至所述预定的目标点位置的成功率,当所述机械臂无法通过所述强化学习算法训练得到的策略完成移动时,切换至通过综合控制策略控制所述机械臂移动,之后再切换回通过所述强化学习算法训练得到的策略继续移动,其中,所述综合控制策略包括第一随机策略和第二随机策略,所述第一随机策略是以通过所述强化学习算法训练得到的策略输出的动作值为均值来产生服从高斯分布的随机动作值,从而使得所述机械臂能够跳出无法完成移动的状态;所述第二随机策略是采用限定的动作值替代所述强化学习算法训练得到的策略输出的动作值,使得所述机械臂可以先暂时远离所述预定的目标点位置。
全文数据:
权利要求:
百度查询: 中国人民解放军军事科学院国防科技创新研究院 基于方向奖励的机械臂智能控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。