基于深度强化学习的自适应巡航控制研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:bloodfort
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汽车的智能化已经成为汽车产业的发展潮流,近年来,深度强化学习技术取得了巨大的突破和进步。其能够在不需要车辆动力学模型的条件下,利用深度神经网络在仿真软件内进行控制算法的自学习,并有超过人类驾驶水平的潜力,适合自动驾驶控制算法的开发。为了探索深度强化学习在自动驾驶领域的学习能力和应用潜力,本文以自适应巡航作为场景,开展基于深度强化学习的自适应巡航控制研究。选取了深度确定性策略梯度算法和软性表演者-评论家算法作为自适应巡航控制策略的训练算法,并结合了自适应巡航的特点对算法进行改进,增强了深度确定性策略梯度算法的环境探索性能和软性表演者-评论家算法的训练稳定性。通过对深度强化学习技术的理论基础进行了阐述,结合了深度强化学习技术和自动驾驶系统的特点,对深度强化学习自动驾驶系统框架进行了设计。然后,选取了深度Q学习算法、深度确定性策略梯度算法和软性表演者-评论家算法三种算法,对各个算法的特点进行了分析,并从中选择出两种算法进行控制策略的训练。完成了深度强化学习算法库的设计和编写,为之后自适应巡航控制策略模型的训练打下了基础。对两种深度强化学习算法训练出的自适应巡航控制策略在标准自适应巡航测试场景进行验证,证明了两种控制策略都能完成自适应巡航控制功能。利用lgsvl和Pre Scan仿真软件搭建了两套深度强化学习仿真平台。设计了自适应巡航控制场景,在lgsvl仿真平台上,对选取的两种算法神经网络模型的超参数进行确定和训练。对深度强化学习的训练过程进行了可行性分析。对两种算法训练出的自适应巡航控制策略在8种场景下进行了验证仿真测试,并分析了两种控制策略的性能和在不同仿真平台下的可迁移性。DDPG和SAC控制算法在三个标准自适应巡航测试场景的平均距离误差分别为30.47m、30.42 m、7.02 m和30.36 m、33.86 m、9.65 m,能够满足自适应巡航测试的要求。将两种自适应巡航控制策略在实车上进行验证实验,证明了两种控制策略在实车环境中都有一定的可行性,且SAC算法的鲁棒性和舒适性更高。利用32线激光雷达、差分卫星定位系统和惯性导航系统获取与跟随车辆的相对距离和相对速度。DDPG和SAC控制算法在实车实验的平均距离误差和速度误差分别为6.90 m、5.33 m和16.29 m/s、5.59 m/s,说明SAC算法在实车环境中的控制效果更好。
其他文献
休闲时代的来临促进了城市旅游业的发展,以及城市游憩商业区(RBD)的出现。然而在目前国内的游憩商业区建设中,依然存在着过度商业化、商业同质化、功能与形态不适配等问题,因此,开展游憩商业区的空间及功能形态研究就具有重要的指导意义。在此背景之下,本文选取广州荔湾RBD为研究案例,基于空间句法理论,结合多源网络开放数据,分别从城市、街区、街坊三个尺度考察荔湾RBD的街道网络形态以及它与功能分布之间的互动
知识图谱以结构化的形式描述客观世界中的概念、实体及其之间的关系,是一种对海量信息数据进行组织、管理和理解的方式,具有广泛的应用前景。命名实体识别(NER)是构建知识图谱的关键步骤。NER任务需要从非结构化文本中定位命名实体并分类到特定的类别,例如人名、地点和组织机构等。虽然现有的基于神经网络的命名实体模型在部分领域取得了巨大成功,但是存在以下两点明显的不足:一是现有的方法主要关注在非嵌套命名实体识
聚乳酸(PLA)作为一种生物基高分子材料,来源于可再生资源,可完全生物降解,具有优异的力学强度和良好的生物相容性等优点。面对石油基高分子材料所带来的环境污染,以及不可再生的石油资源的日益枯竭,PLA的应用和发展受到了广泛关注。但其本身较差的韧性和对缺口的敏感,在很大程度上限制了它的应用,所以需要对PLA进行增韧改性。其中,采用弹性体对PLA进行增韧可以有效改善其冲击强度,但随着弹性体用量的增加,共
高熵合金因其独特的合金设计理念及优异的力学性能,近年来吸引了越来越多的研究者的关注。CoCrFeNi高熵合金作为最早研究的合金体系之一,具有单相FCC结构,表现出十分优异的拉伸塑性及低温力学性能,但是其屈服强度较低。本研究向CoCrFeNi高熵合金中引入了微量的稀土Gd元素,通过机械合金化+放电等离子烧结的方法,制备出超细晶、高强度的CoCrFeNiGdx系多相高熵合金。本文系统地研究了CoCrF
多孔材料以其多样的结构和优越性能被越来越多地应用于各个领域,但是由于缺少对多孔材料性能的快速定量评估手段,目前多孔材料的优化设计依赖于对已有设计结果进行实验测定和仿真分析后的性能数据。三周期极小曲面(TPMS)因其具有优越的连通性和较高的可控性,在多孔材料的设计工作中扮演着越来越重要的角色。本文以基于TPMS设计的多孔材料为研究对象,针对TPMS多孔材料的正向设计过程中缺乏有效的渗透性能定量评估方
中央空调耗能占社会建筑能耗的40%以上,保证中央空调的全工况高效运行对降低社会总能耗具有积极意义。中央空调是由多个子系统耦合构成的非线性复杂系统,实际运行能效受到各子系统匹配特性和末端用户使用模式影响,是多因素作用下的动态变化系统,提高空调运行输出冷量与实际负荷需求精准匹配成为空调节能的难点和热点。中央空调运行数据是系统运行特性的直接反应载体,具有强耦合关联性、多维多量性、复杂性等特点。利用数据挖
近年来,日趋严重的老龄化与全面二胎政策引起的婴儿潮使社区养老和育幼挑战加剧,社区养老育幼资源亟待整合,我国老人带小孩的特殊现象使这一需求愈发明显。而作为社区户外空间最主要的使用者,目前的户外环境设计尚未能满足老携幼人群的具体需要。现有的户外公共空间通常根据成年人的标准设计,既往研究也仅仅关注老人及儿童单一群体。随着包容性设计、通用设计、设计为人人等理念的提出,户外空间设计研究逐渐开始关注复合群体的
近年来,我国道路总里程数迅猛增长,完善的公路网络已经基本形成,建设重点己逐渐向养护转移,特别是一些路面通车后便出现了早期路面病害,这就迫切需要一种能够高效经济修复路面车辙、贫油、裂缝等病害的路面养护技术。目前,我国大力倡导“资源节约型、环境友好型”社会发展战略,对比传统磨耗层资源利用率不高、能源消耗大,2cm及以下各类薄层的优势逐渐凸显,尤其是1cm级别的超薄磨耗层已成为当代必然趋势。超薄磨耗层是
The purpose of this paper presents a single-phase transformer-based inverter for nonlinear load application by using a PID controller.An implementation of an integrated Proportional,Integral,and Deriv
学位
对于工程变更和索赔的研究,我国目前更多是关于其与成本的关系,以及在工程全周期内的管理工作,研究方向更多倾向于投资方如何管理和控制以达到投资控制、节约成本的目的。而在施工方角度的研究中大多寻求变更索赔机会。因为在实际工程中,变更和索赔的应用更多的是施工单位弥补低价投标增加利润。鉴于我国建筑市场开放较晚,目前工程变更和索赔体系并不完善,变更和索赔的理论依据操作性不强,因此在实际过程中承包方经常因错失机