基于深度强化学习的车辆路径规划研究

来源 :福建工程学院 | 被引量 : 0次 | 上传用户:hongyun64
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
车辆技术的智能化发展不但可以使车辆能够以更少的时间到达目的地,而且可以使车辆在行驶过程中有效的避免各种交通事故的发生。在此次车辆技术的智能化发展过程中,其核心发展内容就是车辆的路径规划技术。目前传统的路径规划技术在寻优过程中存在收敛速度较慢、不能处理连续任务以及容易陷入局部最优解等问题,导致交通道路中的车辆进行路径规划效率太低,因此本文针对车辆路径规划问题,研究基于深度强化学习的车辆路径规划策略。本文主要的研究工作如下:(1)针对传统的Q-Learning算法在车辆路径规划中容易陷入局部最优解、收敛速度较慢的问题,引入了动态探索因子技术,提出了一种改进算法ε-Q-Learning。它的探索因子ε的大小是动态的变化的,假如一次从起点到终点的车辆路径探索失败,则通过增大ε来使下一次探索的随机性增大,以免陷入之前的局部优化。反之,则通过减少ε来增加车辆路径探索目的性,使车辆对当前最优路径的探索更具有导向性,提升了探索效率且不易陷入局部最优解。本文基于Aanconda软件,构建了车辆路径规划的仿真实验环境,比较评估了ε-Q-Learning和传统的Q-Learning算法的性能。实验结果表明ε-Q-Learning相比于Q-Learning提升了12.5%的车辆路径规划效率,且结合了ε-Q-Learning算法的车辆所获得的路径也是优于结合了Q-Learning算法的车辆所获得的路径。(2)针对强化学习在车辆路径规划中不能处理连续任务以及过高估计Q值的问题,引入深度强化学习TD3(Twin Delayed Deep Deterministic policy gradient algorithm)算法来解决车辆路径规划问题,它可以面向具有连续动作空间的任务且可以持续的抑制Q值。本文从损失函数、累积回报、最优路径这三个指标来完成对应的实验研究,基于Jupyter notebook搭建仿真实验环境。由于本文使用的数据是低维的且较为简单,因此所使用的神经网络不再是卷积神经网络,而是使用全连接神经网络来对杭州市的部分交通数据(数据来源于杭州市交通拥堵指数实时监测平台)进行处理,最后就TD3算法在路径规划中的有效性进行了测试,同时也利用该数据集对Q-Learning、ε-Q-Learning和TD3算法进行了对比性实验,实验结果表明TD3算法不但可以有效进行车辆路径规划,且累积回报和损失函数相比较于Q-Learning和ε-Q-Learning算法提升了51%左右。
其他文献
PID(Proportional–Integral–Derivative)控制器是现代工程控制中最具代表性的控制方式,以其简易模型、高可靠性而经久不衰。但是随着时代的发展,工业控制的对象复杂性日益增长,控制精度的要求与日俱增,尤其是以火电厂、化工厂、炼钢厂等工业中温度控制为代表的具有大滞后、非线性的控制对象。传统的PID控制已经不能满足控制的需要。本文提出基于一种交流策略的并行QUATRE(QUa
近场地震动通常是指断层距为20km以内的地震,因其复杂的特性,使得其震源机制与远场地震截然不同,因此结构在其作用下破坏更加严重。本文从PEER(美国太平洋地震研究中心)选取远场地震动作为底波,采用MATLAB软件进行人工模拟脉冲型近场地震动,通过Midas civil 2015建立10跨32m双线预应力高速铁路简支梁桥模型,并以课题组研发的TTBSAS计算程序实现列车-轨道-桥梁耦合振动分析,探究
本研究旨在探讨加劲肋加固钢板在不同冲击载荷下的动力响应及破坏模式。钢板结构由于其强度高、性能好,在工业和各种基础设施中得到了广泛的应用。但同时,钢板结构在其使用期间可能受到碰撞冲击、爆炸等意外荷载的作用。冲击荷载作用下引起钢板结构损伤破坏。因此,研究钢板在冲击载荷作用下的动力响应和损伤破坏尤为重要。为此,采用有限元分析软件ABAQUS,建立了加劲和不加劲钢板模型。研究冲击荷载作用下钢板的动力响应和
中国电力工业信息化工程的建设过程中积累了大量的文本数据,作为电力大数据的重要组成部分,电力文本数据中所蕴藏的巨大价值也越来越被业界所认可,成为电力行业大数据挖掘方向的重要研究对象。本文旨在利用关键词提取技术,分别从涉及多领域的新闻报道数据集和电力行业相关的学术论文数据集中抽取出可体现文章主题信息的关键词。本文提出一种电气工程领域专业词汇识别方法用以提升该领域学术论文数据集的中文分词效果,同时,还提
目前,水泥稳定碎石是我国高等公路中使用最广泛的半刚性基层材料,具有整体性好、原材料来源广、成本低等优点,但也存在一些缺陷,容易产生裂缝,影响道路的正常使用。为消除水泥稳定碎石基层的裂缝,按照橡胶粉等体积替代骨料级配中石屑的方法,将废弃橡胶粉掺入到水泥稳定碎石中,研究橡胶粉掺量对水泥稳定碎石力学性能、疲劳性能、变形性能的影响,并分析收缩机理。通过无侧限抗压强度、抗压回弹模量和弯拉强度试验,测试不同橡
方钢管约束超高强混凝土柱具有承载能力高,截面适应性强,施工便捷等特点,钢管的约束作用使超高强混凝土脆性破坏的问题有效改善。但目前有关方钢管约束超高强混凝土(UHSC Ultra-High Strength Concrete)短柱力学性能的研究较匮乏,承载力计算方法不明确。为此本文以试验研究、有限元模拟、理论分析的方式,对该类构件的力学性能展开研究,基于分析所得,提出轴压承载力计算方法。主要工作内容
电磁开关线圈是汽车启动机中的一个重要部件,线圈的绕线精度关系到启动机的使用寿命和性能,但是,目前市场中生产电磁开关线圈的绕线机设备精度普遍还存在一些差距,有待提高。随着国内汽车销量和保有量的不断增加,线圈需求量也随着大幅提升,迫切需要研发一种精度能满足实际需求的自动绕线设备。因此,本文针对电磁开关线圈高精度绕线机研发过程中涉及到的张力控制问题、排线控制问题和线圈合格性检测问题等三个关键技术问题展开
随着我国经济的快速发展,公路运输量不断增长,山岭隧道大量修建。我国地处世界两大活跃地震带之间,高烈度地震区分布广泛,地震灾害频发。由于受到水文地质、勘察精度、施工水平和养护技术等的限制,隧道地层空洞等隐蔽性病害大量出现,严重降低围岩的整体性,地震作用下空洞和隧道衬砌结构产生动力相互作用,威胁隧道结构的稳定性安全性。本论文采用理论分析、有限元计算和正交试验等分析方法,研究了地层空洞对隧道地震动力响应
旋转倒立摆作为欠驱动、强耦合和不稳定的非线性系统,始终被视为研究控制理论的理想平台之一。所谓的自抗扰控制(ADRC)是一种可靠且有效的控制方法,其研究对于复杂,非线性,大时滞等系统有很大参考价值和指导借鉴作用,国内外对自抗扰控制技术的研究方兴未艾。本文首先介绍了倒立摆系统的研究背景和意义、国内外研究动态以及自抗扰控制技术的国内外研究现状。利用MATLAB的S函数与Sim Mechanics功能建立
随着我国经济的飞速增长,宠物行业得到了迅速的发展,并且越来越多人选择饲养宠物来改善生活方式,提高生活质量。生活中难免会遇到需要将宠物进行安置的特殊情况,其中最合适和最有效的安置方式为航空托运。但由于我国宠物航空服务起步较晚,发展较慢,导致我国宠物航空服务行业的落后,使宠物在航空托运中易受到伤害,降低了顾客对航空公司的满意度和延缓了我国宠物航空服务业的发展。综观国内外关于宠物航空产业服务与学术研究仅