买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度强化学习的AGV路径规划_杭州电子科技大学_202111614329.3 

申请/专利权人:杭州电子科技大学

申请日:2021-12-27

公开(公告)日:2024-04-02

公开(公告)号:CN114355915B

主分类号:G05D1/43

分类号:G05D1/43;G05D1/243;G05D1/65;G05D1/633;G05D1/644;G05D109/10

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2022.05.03#实质审查的生效;2022.04.15#公开

摘要:本发明公开了一种基于深度强化学习的AGV路径规划,本发明依据ros操作系统搭建仿真环境,搭建AGV模型;设计强化学习的状态、动作、奖励,搭建深度强化学习的算法框架;训练网络,让AGV从环境中学习策略;使用训练完成的网络,实现AGV的路径规划。本发明从AGV摄像头中获取的原始图像中获取最优动作,自动提取特征;解决了传统算法容易陷入局部最小值的问题。不需要对环境的先验知识,自行探索环境,学习可行的策略。在环境是实时改变或者环境情况复杂时,能动态的去做出改变,去规避动态的障碍物,达到目标点。

主权项:1.一种基于深度强化学习的AGV路径规划,其特征在于:具体包括如下步骤:S1:依据ros操作系统搭建仿真环境,搭建AGV模型;S2:设计强化学习的状态state、动作action、奖励reward;强化学习state的状态采用的是端到端路径规划方法,即把AGV摄像头获取的原始图像作为状态,具体包括如下步骤:C1.将得到的图像重新处理;C2.把图像从RGB转换到灰度图;C3.将连续4帧图像合并起来作为一个状态;强化学习的动作action,包括线速度和角速度;线速度v的大小范围是0~0.2ms,角速度ω的大小范围是-1~1rads,线速度与角速度均为连续的;强化学习的奖励reward用于评价在某个状态下AGV采取某个动作的好坏,强化学习的奖励reward包括速度的奖励、距离的奖励以及偏航角的奖励;奖励函数r=k1*v*cosω+k2*dt-dt-1+k3*|α|,其中k1、k2、k3代表的是权重系数;v代表的是AGV的线速度;r代表的是AGV的角速度;dt、dt-1分别代表的是t时刻离目标点的欧氏距离、t-1时刻离目标点的欧氏距离;α代表AGV偏航角;速度的奖励用于引导AGV采用尽可能少的转弯次数以及尽可能大的线速度到达目标点;距离的奖励用于引导AGV时刻往目标点去靠近;偏航角的奖励用于引导AGV前进方向始终朝向目标点;S3:搭建深度强化学习的算法框架:采用DDPG算法,DDPG算法包括OnlineAcotr网络、TargetActor网络、OnlineCritic网络、TargetCritic网络,OnlineCritic网络的输出是对OnlineAcotr网络做出的决策的评价;TargetActor网络、TargetCritic网络是其对应的Online网络的目标网络;OnlineAcotr网络的输入是状态state,输出是AGV采用的动作action;OnlineCritic的输入是动作状态state,action,对应的输出是一个价值Qs,a,其中s代表状态,a代表在状态s下采取的动作,Qs,a代表的是在当前状态下采取该动作的价值;S4:训练网络,让AGV从环境中学习策略;具体包括如下步骤:D1:初始化ros仿真环境,初始化四个网络结构,初始化提供给网络训练的数据;提供给网络训练的数据即经验池;D2:从AGV的摄像头中获取当前状态s,把s作为输入到OnlineActor网络得到动作a,AGV执行动作a,在AGV执行完动作a后其状态发生改变得到下一个状态s′以及通过奖励函数计算得到奖励r,得到一个四元组s,a,s′,r,将四元组放入经验池中,以便后续网络的训练;D3:OnlineCritic网络训练,从经验池中取出数量为n的样本进行训练,从四元组s,a,s′,r获取s,a状态动作对输入OlineCritic网络得到对应的Qs,a,将得到的状态s′输入TargetActor网络得到状态s′对应的动作a′,将得到的状态动作对s′,a′输入TargetCritic网络得到Qs′,a′,由此得到目标Q′s,a;Q′s,a=r+γ*Qs′,a′,其中r从四元组中得到,γ为权重系数;由此得到Loss函数:最小化Loss函数,完成一次CriticActor网络的训练;D4:OnlineActor网络的训练,与OnlineCritic采用的均方差损失函数不同,OnlineActor采用的损失函数为梯度损失函数其中n表示样本数量,μsi表示OlineActor网络在状态si下采取的策略即采取的动作,θ表示OlineActor网络的参数,计算的是动作价值函数对动作的梯度计算的是动作对OlineActor网络的参数两部分相乘得得到动作价值函数对OlineActor网络参数的梯度,最小化梯度损失函数完成这一次OlineActor网络的训练;D5:TargetCritic网络参数的更新,TargetCritic网络参数ω′=τ*ω+1-τ*ω′;τ为比例系数,ω为OlineCritic网络参数;同理得到TargetActor网络参数θ′=τ*θ+1-τ*θ′;D6:回到步骤D2往复循环执行这几个过程,直到AGV在不发生碰撞的情况下达到目标点且完成率在99%以上时,完成网络训练;S5:使用训练完成的网络,实现AGV的路径规划;在网络训练完成后,保存网络的参数,在进行AGV的路径规划时,加载网络的参数,训练完成的网络对AGV传来的视觉图像做出决策产生AGV所要执行的动作,引导AGV朝目标点前进。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 一种基于深度强化学习的AGV路径规划

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。