论文部分内容阅读
随着机动化的交通需求迅速增长,快速道路交通拥堵问题愈发严重。现有的主动交通管控方法,包括入口匝道控制和可变限速控制,是缓解快速道路拥堵最有效的控制方式。入口匝道控制通过调节匝道汇入主线的流量,可变限速控制通过调节瓶颈上游路段的限速值,两种控制方式都是通过防止瓶颈路段通行能力下降来提高快速道路的通行效率。近年来对于快速道路瓶颈路段的研究主要针对合流区的瓶颈,针对快速道路远距离下游瓶颈的研究较少,而在许多实际场景中,由于快速路的下游存在上坡、弯道、隧道、桥梁以及车道减少等现象,下游会存在通行能力比上游小的瓶颈,这些瓶颈与控制点相距较远,当两者距离较远时,将导致主线的速度和流量出现大幅度的波动,严重威胁通行效率和行车安全。系统的时滞效应导致控制量与主线量发生耦合振荡。在这种情况下,一方面,控制器不能仅考虑瓶颈处的交通流信息,如何充分利用研究路段上下游的交通流量信息是关键问题;另一方面,控制器需要克服在控制距离较长情况下产生的振荡,控制算法如何适应控制点和下游瓶颈位置的任意变化也是重要问题。首先,本文提出了基于深度强化学习(即Deep Q Network,简称DQN)算法的入口匝道控制策略和可变限速控制策略,定义了算法的主要元素,包括输入的状态、输出的动作、以及回报值。并阐述了基于深度强化学习的入口匝道控制策略以及可变限速控制策略训练过程,经过有效训练,智能体能够采取一系列最大化回报值的动作。其次,对主动控制下的交通流仿真计算模型进行研究,建立基本元胞传输模型并对其进行改进与二次开发。构建了CTM仿真平台以及Python开发环境,通过模块化设计实现了平台之间的实时交互,设计了面向多算法实时控制的仿真计算流程。然后分析深度强化学习算法的控制效果,并对比反馈算法、Q学习算法在控制效果的差异。结果表明,在入口匝道控制和可变限速控制中,所提出的DQN算法均优于其他算法。入口匝道控制中,DQN算法在稳定需求场景下将总行程时间减少了34.09%到35.39%,DQN算法在波动需求场景下减少了40.38%到41.29%。在可变限速控制中,DQN算法在稳定需求场景下将总行程时间减少了36.04%到37.77%,DQN算法在波动需求场景下减少了44.51%到45.65%。DQN算法可以提高瓶颈区域的通行能力,缩小拥堵状态的时空分布范围,降低快速道路车辆总行程时间。DQN算法具有预测能力强、收敛速度快、动作精度高等特点,在具有时间延迟的系统中也能实现最优控制效果。