买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于HER-SAC算法的机器人路径规划方法及装置_华南理工大学_202311779904.4 

申请/专利权人:华南理工大学

申请日:2023-12-22

公开(公告)日:2024-04-12

公开(公告)号:CN117873070A

主分类号:G05D1/43

分类号:G05D1/43;G05D1/633;G05D1/644;G05D1/247;G05D1/648;G05D105/22

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于HER‑SAC算法的机器人路径规划方法及装置,方法包括:在物理引擎中搭建环境和障碍物,创建目标点,并初始化相关参数,所述相关参数包括奖励折扣因子、熵参数、学习率、状态空间和动作空间;构建HER‑SAC深度强化学习网络模型,然后开始训练模型,训练过程如下:根据目标运行机器人,对运行轨迹采样并收集轨迹经验,然后存放到经验回放池中;采用未来采样法得到新目标,根据当前时刻的状态和动作,重新计算新的奖励并放入经验池;从经验池中选取样本,更新价值网络和策略网络,然后迭代训练模型,直到机器人运行参数收敛,训练终止。本发明通过HER方法与SAC算法相结合,有效的解决了训练中奖励稀疏的问题,提高了训练的效率。

主权项:1.基于HER-SAC算法的机器人路径规划方法,其特征在于,包括下述步骤:在物理引擎中搭建环境和障碍物,创建目标点,并初始化相关参数,所述相关参数包括奖励折扣因子、熵参数、学习率、状态空间和动作空间;构建HER-SAC深度强化学习网络模型并进行训练,模型包括HER算法模块和SAC算法模块;所述HER算法模块用于对经验回放池中的序列添加新的目标利用奖惩函数重新计算奖励,获取新的序列,并将其放进经验回放池中;所述SAC算法模块用于构建机器人路径规划网络,初始化相关参数,在训练中对机器人路径规划网络进行更新;所述机器人路径规划网络包括价值网络和策略网络;对HER-SAC深度强化学习网络模型的训练过程如下:收集轨迹经验,将基于实际目标采样的经验存放到经验回放池中;在HER算法中采用未来采样法,即选取从现在开始k个随机状态作为新目标,对每个新目标重新计算奖励值,并将新的序列添加到经验池中,使用事后经验回放来改善奖励的稀疏程度;所述新的序列为st||g,at,rg,t,st+1||g;从经验池中选取样本,更新价值网络和策略网络,所述策略网络输入当前状态state,输出动作概率分布函数;所述价值网络输入当前的状态state和采取的动作action,输出动作-状态对价值大小的估计;利用训练好的HER-SAC深度强化学习网络模型对机器人路径进行规划。

全文数据:

权利要求:

百度查询: 华南理工大学 基于HER-SAC算法的机器人路径规划方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。