买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向工业机器人的强化学习奖励值计算方法_广东技术师范大学_202110078241.8 

申请/专利权人:广东技术师范大学

申请日:2021-01-20

公开(公告)日:2023-05-09

公开(公告)号:CN114851184B

主分类号:B25J9/16

分类号:B25J9/16

优先权:

专利状态码:有效-授权

法律状态:2023.05.09#授权;2022.08.23#实质审查的生效;2022.08.05#公开

摘要:本发明公开了一种面向工业机器人的强化学习奖励值计算方法,包括如下步骤:S1:工业机器人状态参数初始化计算;S2:工业机器人末端执行机构的位姿奖励值计算;S3:工业机器人碰撞奖励值计算;S4:工业机器人探索奖励值计算;S5:目标奖励值计算;本发明通过划分出目标附近区域和非目标附近区域,可以让工业机器人的末端在前期能快速靠近目标位置,在后期靠近目标位置的同时调整合适的姿态,加快工业机器人的探索过程;综合考虑了工业机器人各种状态信息位置、姿态、碰撞等,避免工业机器人最终规划出来的运动轨迹存在姿态无法满足实际生产需求这一问题。

主权项:1.一种面向工业机器人的强化学习奖励值计算方法,其特征在于:包括如下步骤:S1:工业机器人状态参数初始化计算:具体包括步骤:1获取工业机器人作业环境中障碍物的三维点云分布{p1,p2,…,pn},以及工业机器人的目标位姿矩阵矩阵中R为3×3的旋转矩阵表示姿态,P为3×1的平移矩阵表示位置量;2根据工业机器人的D-H参数,计算初始时刻机器人末端执行机构的位姿矩阵:上一时刻位姿矩阵:和当前时刻的位姿矩阵3根据位姿矩阵中的平移矩阵P,计算工业机器人末端执行机构初始时刻到目标的最短距离Dst,上一时刻到目标的最短距离Dt和当前时刻到目标的最短距离Dt+1;4计算工业机器人当前时刻各关节连杆与障碍物之间的最短距离d1,d2,d3,…,di,di表示第i个关节连杆到障碍物的距离;以及末端执行机构与障碍物之间的最短距离dE;5计算当前时刻工业机器人末端位姿矩阵与目标位姿矩阵中旋转矩阵之间的余弦夹角: S2:工业机器人末端执行机构的位姿奖励值计算:主要流程有:1条件判断,若满足不等式Dt+10.1×Dst则工业机器人末端已进入目标附近区域;2在目标附近区域,则位姿奖励值计算公式为: 3若未进入目标附近区域,则位姿奖励值计算公式为: S3:工业机器人碰撞奖励值计算:1找到工业机器人关节连杆和末端到障碍物之间的最短距离:dmin=min{d1,d2,...,di,dE}2利用下式计算碰撞奖励值的大小: 式中ds表示安全距离,根据经验取20-30cm;dd表示危险距离,根据经验取5-10cm;S4:工业机器人探索奖励值计算:1若未进入目标附近区域,则探索奖励值计算公式为: 2若进入目标附近区域,则探索奖励值计算公式为: S5:目标奖励值计算: 式中Δθa表示末端姿态允许的偏差角度,ΔD表示末端位置允许的偏差量;S6:总奖励值计算:∑R=Rpose+Rco+Rsec+Raim。

全文数据:

权利要求:

百度查询: 广东技术师范大学 一种面向工业机器人的强化学习奖励值计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。