【发明公布】一种基于改进奖惩机制的强化学习路网负载均衡调度方法_长春工业大学_202310709345.3

导航：龙图腾网> 最新专利技术> 一种基于改进奖惩机制的强化学习路网负载均衡调度方法_长春工业大学_202310709345.3

申请/专利权人：长春工业大学

申请日：2023-06-15

公开（公告）日：2023-09-22

公开（公告）号：CN116797116A

主分类号：G06Q10/083

分类号：G06Q10/083;G01C21/20;G01C21/34;G06Q10/047;G06Q10/087;G06Q10/0631;G06N20/00

优先权：

专利状态码：在审-实质审查的生效

法律状态：2023.10.13#实质审查的生效;2023.09.22#公开

摘要：本发明涉及一种基于强化学习的智能AGV路网负载均衡调度方法，其方法包括：步骤S1：利用坐标系建立栅格地图，在地图中设置障碍和添加任务模块；步骤S2：用改进Q学习算法训练得出Q矩阵，让智能AGV在路网中与环境进行交互，多次迭代循环得出最优路径规划路线；步骤S3：设置2000次任务量，将路网中运行的每个AGV的路径长度进行记录，提取栅格地图中每个点的路网负载量，得出路网负载图；步骤S4：运用改进的奖惩机制函数，将路径长度与路网负载相结合，让AGV在路网中与环境进行交互，优化高负载区域。本发明所提方法，将负载因素考虑在强化学习的奖惩函数中，提出路径长度和路网负载结合，使路网负载均衡，规避了AGV因路网拥挤造成的速度慢和路径冲突问题。

主权项：1.一种基于改进奖惩机制的强化学习路网负载均衡调度方法，其特征在于，包括：步骤S1：利用坐标系建立栅格地图，在地图中设置障碍和添加任务模块；步骤S2：用改进Q学习算法让智能AGV在路网中与环境进行交互，训练得出Q矩阵，多次迭代循环得出最优路径规划路线；步骤S3：设置100nn∈N+次任务量，将路网中运行的每个AGV的路径长度进行记录，提取栅格地图中每个点的路网负载量，得出路网负载图；步骤S4：运用提出的改进奖惩机制函数，将路径长度与路网负载相结合，让AGV在路网中再次与环境进行交互，对路网中高负载区域进行优化。

全文数据：

权利要求：

百度查询：长春工业大学一种基于改进奖惩机制的强化学习路网负载均衡调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于视觉和图像处理的叉车AGV控制系统_中建材智能自动化研究院有限公司_202410146298.0

下一篇：一种中心静脉压手动测量装置_中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所)_202410152192.1

相关技术

一种基于视觉和图像处理的叉车AGV控制系统_中建材智能自动化研究院有限公司_202410146298.0

一种中心静脉压手动测量装置_中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所)_202410152192.1

热解油提质为BTEX的两级催化方法_沙特阿拉伯石油公司_202280065181.9

一种探测烟雾粒度及浓度的方法_烟台创为新能源科技股份有限公司_202410159903.8

一种负极活性材料及应用其的锂离子电池_中创新航科技集团股份有限公司_202410315953.0

一种异性粘结磁粉制备用原料筛选设备_天长市中德电子有限公司_202410411084.1

一种用于降解餐厨垃圾的诱变菌株的复配及其应用_北京林业大学_202410173755.5

一种燃气-蒸汽联合循环发电供热系统_西安热工研究院有限公司_202410130737.9

一种海底设施多关节柔性智能体的控制方法及系统_同济大学_202410164319.1

电池模组和电池包_浙江晶科储能有限公司_202410338036.4

为放大器操作进行的平台资源的选择_超威半导体公司_202280065509.7

保护开关设备和方法_西门子股份公司_202280065501.0

龙图腾网&IPTOP

【发明公布】一种基于改进奖惩机制的强化学习路网负载均衡调度方法_长春工业大学_202310709345.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务