面向城市自适应交通信号控制的强化学习方法研究

被引量 : 0次 | 上传用户:cool_bl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于城市交通的迅速发展,城市道路功能增多,密度加大,国外从20世纪60年代便开始了自适应交通信号控制的研究。自适应交通信号控制是缓解城市交通拥挤的很有潜力的方法。但由于城市交通系统具有非线性、动态性、非确定性、模糊性、复杂性等特征,传统的自适应交通信号控制系统及智能控制方法虽然取得了一定的成绩,但由于对多变的交通流在一定程度上不能适应,对交通模型依赖较严重。强化学习方法由于不需要外部环境的数学模型,对环境的先验知识要求低,可在大空间、复杂的非线性系统中取得良好的学习性能,因此,近年来许多学者提出的基于agent(智能体)的强化学习方法在自适应交通信号控制中将有广阔的发展前景。本论文首先为每个信号控制的交叉口定义一个agent,即交叉口交通信号控制agent,分析了面向自适应交通信号控制的标准强化学习的过程及有效性,研究了面向自适应交通信号控制的几种典型强化学习算法的应用,包括分布式Nash Q-学习方法、多遇历史学习方法、策略梯度上升方法。论文的重点及创新成果如下:(1)交叉口交通信号控制agent体系结构模型的构建针对交叉口交通流具有的多干扰、动态性、不确定性等特性,以agent的BDI理论模型为基础,将认知型agent结构和反应型agent结构进行融合,根据“感知-认知-行为”模式构建了交叉口交通信号控制agent体系混合结构模型。(2)面向自适应交通信号控制的标准强化学习算法的实现利用标准强化学习方法中方法对交叉口交通信号进行控制。首先设计了独立标准强化学习算法对单交叉口交通信号进行控制,并与定时控制方法进行对比分析,验证了独立标准强化学习控制方法的有效性。针对独立标准强化学习算法存在的维数灾难问题,通过引入协调机制对独立标准强化学习算法进行延伸设计了基于协调机制的标准强化学习算法,并与独立标准强化学习进行了比较,分析了其收敛性和有效性。(3)面向自适应交通信号控制的分布式Nash Q-学习方法的设计针对交叉口间交通流的相互关联性,利用n人非零和Markov对策建立了交叉口交通信号控制agent间的交互数学模型,提出了求解该模型的分布式Nash Q-学习算法。在所提出的算法中各个交叉口交通信号控制agent的配时动作选择不仅仅依赖自身的Q值函数,而且必须考虑其他交通信号控制agent的Q值函数,选择的配时动作是当前所有交叉口交通信号控制agent的Q值函数下的Nash平衡解,这种方法使得每一交叉口交通信号控制agent在联合配时动作及不完备信息下更新Q值。通过理论分析和仿真实验证明了此算法的收敛性,并与基于独立强化学习算法的交通信号控制、定时交通信号控制、基于国外相关文献算法的交通信号控制等进行比较分析,验证了其有效性。(4)面向自适应交通信号控制的多遇历史学习法的设计针对目前应用多agent学习协调机制进行自适应交通信号控制存在着完备知识假设和单遇交互假设的不足,利用对策论构建了城市交叉口交通信号控制agent间多遇交互数学模型,通过引入记忆因子设计了多交互历史学习协调算法。在此模型和算法中,每一交叉口交通信号控制agent与相邻交叉口交通信号控制agent进行交互,根据选择策略获得的效用值来更新它的混合策略,并且交叉口交通信号控制agent通过对其他相邻交叉口交通信号控制agent以往历史交互行为,特别是最近的历史行为的记忆学习达到协调。从理论上分析了此算法的收敛性。以数个交叉口相连接的干道交通信号协调控制为例分析了记忆因子、学习概率、交叉口交通流变化率等参数对此方法的性能的影响,并与国外相关文献方法进行了比较分析,证明了该方法的有效性,并具有一定的动态环境适应能力和协调能力。(5)面向自适应交通信号控制的策略梯度上升方法的设计由于城市交通系统的环境状态信息很难被控制系统完全感知,将自适应交通信号控制看成是POMDP(Partially Observable Markov Decision Process,部分感知马尔科夫决策)问题,建立了交叉口自适应交通信号控制POMDP环境模型,在引入GPOMDP算法的基础上,针对一般策略梯度估计法的不足,将自然策略梯度、值函数方法的优点进行融合,设计了在线NAC(NaturalActor Critic)算法来进行自适应交通信号控制。通过仿真实验分析了相关参数等对两种算法收敛性的影响,并与基于饱和度平衡策略的交通信号控制、定时交通信号控制及基于国外相关文献方法的交通信号控制进行了比较分析,证明了采用策略梯度上升强化学习方法的有效性,表明了其对自适应交通信号控制具有一定的适用性。
其他文献
声导则中,公路交通噪声预测模式是一个半经验模式。通过对该模式进行详细的推导,以正确理解导则模式的来龙去脉,然后对该模式的相关问题给出了深入分析,以便在实际工作中正确运用
目的随着经济全球化的发展,中医药也被越来越多的国家和人民认可。中医药术语英文翻译已成为中医药走向世界的一个不可替代的桥梁。为了加强学术交流、促进中医药的国际传播,中
在社会经济改革过程中一个重要的改革就是预算会计制度,有效的改革可以提高行政事业单位的工作效率,提升财政资金的运用效率,进而促进社会和谐发展。要加强预算会计制度改革,
随着社会经济的发展,城市中压配电网规模不断壮大,目前城市配电网因网架结构不完善导致的配电运行问题较多。近年来,国内外众多学者对配电网接线模式进行了研究,取得了显著的成果
土与支护结构相互作用的问题已引起学者的高度关注,对该领域的研究也有了新的突破。但考虑接触面厚度的桩土相互作用,无论是在计算模型的建立上还是在计算方法的选取上,都有
头腔共鸣是声乐演唱中尤为重要的一项发声方法,是每一位学习声乐的人都应该掌握的技巧。头腔共鸣不仅能使声音更具有穿透力,合适的发声练习,能够更快的找到头腔共鸣。
随着社会的进步,城市的发展,地铁作为现代化的公共交通设施其作用越来越重要。但同时,地铁站内部建筑结构复杂,机电设备种类多,大量的电器设备、空调机组、电线电缆以及办公生活设
20世纪以来,全球经济形势发生了巨变,新技术尤其是数字技术的发展,将企业与消费者史无前例地紧密联系在了一起。沟通与互动在为企业与消费者建立直接的联系沟通的同时,也使得企业
呼叫中心即CallCenter,在社会上被叫做“客户服务中心”,从开始到现在已经发展了近三十年。当前,在国际上呼叫中心行业已经成为一种科技信息产业,并且产生了一大批专门用于呼叫中
多糖对蛋白质的修饰能够改善蛋白质的多种功能性质,可以作为功能配料应用于食品及医药领域,已经受到越来越多的关注。多糖与蛋白质发生相互作用的主要方式有共价接枝和静电相互