论文部分内容阅读
由于城市交通的迅速发展,城市道路功能增多,密度加大,国外从20世纪60年代便开始了自适应交通信号控制的研究。自适应交通信号控制是缓解城市交通拥挤的很有潜力的方法。但由于城市交通系统具有非线性、动态性、非确定性、模糊性、复杂性等特征,传统的自适应交通信号控制系统及智能控制方法虽然取得了一定的成绩,但由于对多变的交通流在一定程度上不能适应,对交通模型依赖较严重。强化学习方法由于不需要外部环境的数学模型,对环境的先验知识要求低,可在大空间、复杂的非线性系统中取得良好的学习性能,因此,近年来许多学者提出的基于agent(智能体)的强化学习方法在自适应交通信号控制中将有广阔的发展前景。本论文首先为每个信号控制的交叉口定义一个agent,即交叉口交通信号控制agent,分析了面向自适应交通信号控制的标准强化学习的过程及有效性,研究了面向自适应交通信号控制的几种典型强化学习算法的应用,包括分布式Nash Q-学习方法、多遇历史学习方法、策略梯度上升方法。论文的重点及创新成果如下:(1)交叉口交通信号控制agent体系结构模型的构建针对交叉口交通流具有的多干扰、动态性、不确定性等特性,以agent的BDI理论模型为基础,将认知型agent结构和反应型agent结构进行融合,根据“感知-认知-行为”模式构建了交叉口交通信号控制agent体系混合结构模型。(2)面向自适应交通信号控制的标准强化学习算法的实现利用标准强化学习方法中方法对交叉口交通信号进行控制。首先设计了独立标准强化学习算法对单交叉口交通信号进行控制,并与定时控制方法进行对比分析,验证了独立标准强化学习控制方法的有效性。针对独立标准强化学习算法存在的维数灾难问题,通过引入协调机制对独立标准强化学习算法进行延伸设计了基于协调机制的标准强化学习算法,并与独立标准强化学习进行了比较,分析了其收敛性和有效性。(3)面向自适应交通信号控制的分布式Nash Q-学习方法的设计针对交叉口间交通流的相互关联性,利用n人非零和Markov对策建立了交叉口交通信号控制agent间的交互数学模型,提出了求解该模型的分布式Nash Q-学习算法。在所提出的算法中各个交叉口交通信号控制agent的配时动作选择不仅仅依赖自身的Q值函数,而且必须考虑其他交通信号控制agent的Q值函数,选择的配时动作是当前所有交叉口交通信号控制agent的Q值函数下的Nash平衡解,这种方法使得每一交叉口交通信号控制agent在联合配时动作及不完备信息下更新Q值。通过理论分析和仿真实验证明了此算法的收敛性,并与基于独立强化学习算法的交通信号控制、定时交通信号控制、基于国外相关文献算法的交通信号控制等进行比较分析,验证了其有效性。(4)面向自适应交通信号控制的多遇历史学习法的设计针对目前应用多agent学习协调机制进行自适应交通信号控制存在着完备知识假设和单遇交互假设的不足,利用对策论构建了城市交叉口交通信号控制agent间多遇交互数学模型,通过引入记忆因子设计了多交互历史学习协调算法。在此模型和算法中,每一交叉口交通信号控制agent与相邻交叉口交通信号控制agent进行交互,根据选择策略获得的效用值来更新它的混合策略,并且交叉口交通信号控制agent通过对其他相邻交叉口交通信号控制agent以往历史交互行为,特别是最近的历史行为的记忆学习达到协调。从理论上分析了此算法的收敛性。以数个交叉口相连接的干道交通信号协调控制为例分析了记忆因子、学习概率、交叉口交通流变化率等参数对此方法的性能的影响,并与国外相关文献方法进行了比较分析,证明了该方法的有效性,并具有一定的动态环境适应能力和协调能力。(5)面向自适应交通信号控制的策略梯度上升方法的设计由于城市交通系统的环境状态信息很难被控制系统完全感知,将自适应交通信号控制看成是POMDP(Partially Observable Markov Decision Process,部分感知马尔科夫决策)问题,建立了交叉口自适应交通信号控制POMDP环境模型,在引入GPOMDP算法的基础上,针对一般策略梯度估计法的不足,将自然策略梯度、值函数方法的优点进行融合,设计了在线NAC(NaturalActor Critic)算法来进行自适应交通信号控制。通过仿真实验分析了相关参数等对两种算法收敛性的影响,并与基于饱和度平衡策略的交通信号控制、定时交通信号控制及基于国外相关文献方法的交通信号控制进行了比较分析,证明了采用策略梯度上升强化学习方法的有效性,表明了其对自适应交通信号控制具有一定的适用性。