申请/专利权人:东北大学
申请日:2022-03-03
公开(公告)日:2024-04-02
公开(公告)号:CN114527642B
主分类号:G05B11/42
分类号:G05B11/42
优先权:
专利状态码:有效-授权
法律状态:2024.04.02#授权;2022.06.10#实质审查的生效;2022.05.24#公开
摘要:本发明公开一种基于深度强化学习的AGV自动调整PID参数的方法,方法首先将生产环境的实际场景进行建模,建立马尔可夫决策过程;然后初始化AGV的当前状态,根据ε‑greedy决策选择动作,获得AGV的下一个状态,并将其发送给AGV运行,获取AGV运行过程中的数据,计算奖励值;接着储存当前状态、动作、奖励值和下一个状态到记忆库中,从记忆库中取样并使用深度强化学习DQN网络模型中的评估网络和目标网络分别计算当前状态和下一状态的所有值函数,使用梯度下降、均方差损失函数计算损失,并将评估网络参数更新到目标网络;最后根据AGV运行情况判断当前的PID是否为最终状态,结束PID参数的调整。本发明的方法不仅适用于所有生产环境,还能提高AGV投入使用的工作效率。
主权项:1.一种基于深度强化学习的AGV自动调整PID参数的方法,其特征在于,包括如下步骤:步骤1:将生产环境的实际场景进行建模,建立马尔可夫决策过程;步骤2:初始化AGV的当前状态s,随机生成P、I、D;步骤3:根据ε-greedy决策选择动作,获得AGV的下一个状态s’;步骤4:发送下一个状态s’的PID给AGV,AGV运行,同时获取AGV运行过程中的横坐标x、纵坐标y、角度theta、终点坐标和是否运行结束标记,并根据位置偏差和与角度偏差和计算奖励值r;步骤5:储存当前状态s、动作a、奖励值r和下一个状态s’到记忆库M中;步骤6:判断储存次数是否大于记忆库最大容量,若是则执行步骤7和步骤8;若否则跳转到步骤9;步骤7:从记忆库中随机取样,使用深度强化学习DQN网络模型中的评估网络计算当前状态s的所有值函数Q,使用深度强化学习DQN网络模型中的目标网络计算下一状态s’的所有值函数Q’,结合Q和Q’使用梯度下降、均方差损失函数计算损失,并根据损失更新评估网络;步骤8:判断评估网络的更新次数是否达到目标网络更新步数,若是则将评估网络参数更新到目标网络;若否则跳转到步骤9;步骤9:根据AGV运行情况,判断当前状态下设置的PID是否为最终状态或当前设置的PID是否保持两次不变或达到状态改变的阈值;若是则跳转到步骤10;若否则跳转到步骤3;步骤10:判断是否达到训练次数阈值,若否则重复执行步骤2-9;若是则程序结束。
全文数据:
权利要求:
百度查询: 东北大学 一种基于深度强化学习的AGV自动调整PID参数的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。