买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于多智能体路径规划的公交车辆排班方法_北京邮电大学_202410005930.X 

申请/专利权人:北京邮电大学

申请日:2024-01-03

公开(公告)日:2024-04-02

公开(公告)号:CN117808652A

主分类号:G06Q50/40

分类号:G06Q50/40;G06Q10/047;G06Q10/0631;G06N3/006;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.19#实质审查的生效;2024.04.02#公开

摘要:本发明公开了一种基于多智能体路径规划的公交车辆排班方法,属于公交车辆排班领域。本发明方法包括:设计公交车辆排班问题的序列决策过程,将公交车辆排班问题映射为多智能体路径规划问题;将车辆作为智能体,设计可选行程和竞争车辆的概念,进行马尔可夫决策过程建模,设计状态空间、动作空间和奖励函数;结合参数共享的思想,使用基于策略的强化学习算法完成车辆智能体与仿真环境的交互,停止迭代后,各车辆智能体按照发车时刻逐步决策,生成完整公交车排班策略。本发明方法使车辆能基于重点关注的环境信息进行实时决策,能同时解决离线和在线的调度问题,有效降低排班方案所带来的车辆使用成本,能适用于更大规模的场景中。

主权项:1.一种基于多智能体路径规划的公交车辆排班方法,其特征在于,包括如下步骤:步骤1:设计公交车辆排班问题的序列决策过程,将公交车辆排班问题映射为多智能体路径规划问题;其中,将车队中的车辆看作智能体,将公交线路上的始发站和终点站作为控制点;选择车辆到站且休息最小休息时间的时刻作为决策点;将公交车辆排班问题映射为多智能体路径规划问题:使用节点表示行程,节点间的有向边连接表示行程间的相容,车辆v的一个决策过程是,将该车辆执行的上一个行程作为父节点,该节点与候选为下一行程的W个子节点相连,边上的权值表示选择相应子节点作为下一行程的概率;每个车辆进行序列决策过程得到自己的行程选择路径,所有车辆的行程选择路径构成车辆排班问题的解;W大于或等于1;步骤2:将车辆作为智能体,进行马尔可夫决策过程建模,设计状态空间、动作空间和奖励函数;其中,状态是车辆智能体在决策时的输入信息,包含行程信息和竞争车辆信息;动作是车辆智能体的决策输出,动作空间包含车辆选择不同行程的动作及高峰休眠动作;奖励是环境对车辆智能体所执行动作的反馈信号,奖励函数包含主线奖励和支线奖励;以使用的车辆数越少和执行奇数个行程的车辆数越少作为优化目标设计主线奖励;在每执行一步车辆智能体的决策后计算一次支线奖励,以为覆盖遗漏的发车时刻点使用的新车数越少和新增陷入休眠的或达到工作上限、且执行奇数个行程的车辆数越少作为优化目标设计支线奖励;步骤3:使用基于策略的强化学习算法完成车辆智能体与仿真环境的交互,训练得到最优策略;其中,为每个车辆智能体设置Actor网络用于动作决策,所有Actor网络共享一套参数;每回合迭代中,车辆智能体基于序列决策过程与仿真环境交互,在每一步决策,车辆智能体将观测的状态s和动作掩码m输入到Actor网络,输出各动作的选择概率p,依概率选择动作a,计算奖励r,将交互产生的s,a,p,r,m元组存入经验池;每回合的迭代完成对发车时刻表的全覆盖,生成一个完整的公交车辆排班策略;使用经验池中元组数据基于Critic网络评价当前Actor网络,梯度更新Actor网络所共享的参数和Critic网络参数;在停止迭代后,各车辆智能体使用最后更新的共享参数的Actor网络,按照发车时刻表逐步进行决策,获得完整公交车排班策略。

全文数据:

权利要求:

百度查询: 北京邮电大学 一种基于多智能体路径规划的公交车辆排班方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。