买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于深度强化学习的交通信号灯配时调控方法及系统_合肥工业大学_202410217400.1 

申请/专利权人:合肥工业大学

申请日:2024-02-28

公开(公告)日:2024-04-02

公开(公告)号:CN117809469A

主分类号:G08G1/083

分类号:G08G1/083;G08G1/08;G06N3/045;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.19#实质审查的生效;2024.04.02#公开

摘要:本发明涉及交通控制技术领域,具体涉及基于深度强化学习的交通信号灯配时调控方法及系统。本发明公开了基于深度强化学习的交通信号灯配时调控方法,包括:步骤一,初始化两个相同结构的Q值网络,并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络;步骤二,将目标道路交叉口作为目标环境,并周期性采集目标环境的状态;步骤三,基于双Q学习对、进行多轮迭代运算,并同步对目标环境中的交通信号灯进行相位控制,直至达到最大迭代轮数N。本发明采用双Q学习方法,通过引入经验回放、使用目标Q值网络来评估Q值,将选择最优动作的过程和评估最优动作的过程分开,可以更好、更稳定性的学习到最优策略。

主权项:1.一种基于深度强化学习的交通信号灯配时调控方法,其特征在于,包括以下步骤:步骤一,初始化两个相同结构的Q值网络,并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络;其中,、的参数相同;步骤二,将目标道路交叉口作为目标环境,并周期性采集目标环境的状态;步骤三,基于双Q学习对、进行多轮迭代运算,并同步对目标环境中的交通信号灯进行相位控制,直至达到最大迭代轮数N;其中,n∈[1,N],第n轮迭代运算的方法包括:步骤3.1,获取sn,并基于ε-greedy策略从所有可能动作中选择出第n轮迭代要执行的动作an;其中,sn表示执行an-1后目标环境的状态,an-1表示第n-1轮迭代要执行的动作;所有可能动作包括a1、a2;a1=1,表示切换当前相位到下一相位;a2=0,表示保持当前相位不变;步骤3.2,在目标环境中执行an、并得到sn+1;其中,sn+1表示执行an后目标环境的状态;步骤3.3,依据sn计算出an的奖励rn,再组成第n组经验组sn,an,rn,sn+1、并存入经验池;其中,若n超过经验存储阈值D,从经验池中随机选择m组经验组,并计算出目标Q值TQn;再基于TQn构建损失函数L,并基于L按照梯度下降算法更新的参数,得到第n轮迭代完成后的动作价值网络;若n等于参数替换阈值d*K,将的参数替换成的参数;d为整数。

全文数据:

权利要求:

百度查询: 合肥工业大学 基于深度强化学习的交通信号灯配时调控方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。