基于深度强化学习的无人车控制策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:winnerdj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动驾驶技术一直在人工智能领域中扮演着重要角色,是汽车行业未来的发展方向,无人车控制策略研究是自动驾驶技术突破面对的核心问题。因此,本文将设计一个深度强化学习算法,能够实现从输入端到输出端的直接控制,进一步解决自动驾驶领域存在的控制策略难题,提升出行和驾驶体验。本文基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,分析设计了基于经验分类指导的深度确定性策略梯度算法(DDPG with Classified Experience Conducted,CEC-DDPG),核心改进是增加了多经验池分类存放机制和随机指挥家网络。无人车能够通过该算法快速找到合理的控制策略,顺利完成无人驾驶任务。CEC-DDPG算法专门设计了一个“人才池”存放近期的优质样本数据,通过TD-error比较法和高回报分类法定义优质样本,优质经验样本数据存放至“人才池”。算法在进行经验样本存储前首先将其分类,仅增加了O(1)的时间复杂度,却有效提高了优质样本的利用率。同时基于“人才池”构建了随机指挥家网络,输出的指导策略与演员策略共同集成为当前控制策略。随机指挥家网络基于“人才池”不断更新的优质经验进行网络更新,并且改变了评论家网络的更新方式,能够有效提高算法中各个网络的学习效率。本文从理论上对CEC-DDPG算法的各个网络参数更新进行了推导。本文使用TORCS(The Opening Racing Car Simulator)作为无人车控制系统的仿真测试平台。针对无人车在过弯时速度控制不合理的问题重新设计了奖励函数,达到了预知弯道项并提前刹车的目的。并通过实验调试的方式确定了“人才池”的最佳采样比。基于TORCS仿真系统对CEC-DDPG算法进行了实验仿真验证。实验数据表明,本文设计的CEC-DDPG算法,相较于DDPG算法,在策略学习速度、跟踪误差表现和控制策略泛化性能等多个方面表现更好,学习过程更加稳定,能够完成无人自主行使任务。验证了CEC-DDPG算法在无人车控制策略输出中的可行性和优越性。
其他文献
采用聚酰胺一胺(PAMAM)树状分子化学修饰方法制备碳纳米管接枝炭纤维(CF-PAMAM-CNTs)新型增强体。利用X射线光电子能谱(XPS)、扫描电子显微镜(SEM)和原子力显微镜(AFM)对接枝前后CF表面
研究背景:i PSCs的发现使得再生医学研究取得革命性的进展。然而i PSCs的诱导过程存在效率低、耗时长的缺点,限制了其广泛的临床应用。作为cohesin复合物的重要组成部分,Smc1
近几年米,国际标准化组织(ISO)、美国医疗机构评审联合委员会(JACHO)、美斟临床和实验室标准化研究院(CLSI)先后颁布文件,建议将风险管理应用十临床实验室阻[1-4]。风险管理起源于保
新媒体时代媒体平台和媒介资源极速膨胀,视频网站、网络电视、微视频等为受众提供了广泛的选择平台,密集的网络自制节目为受众提供了更多内容选择,传统电视节目迎来了新挑战
灸法是针灸疗法的重要组成部分,在临床中发挥显著的作用。尽管其具有安全有效的特点,但在大量临床实践中,古代医家总结出诸多灸法禁忌,并将其记载于历代文献中。这些禁忌避免
文天祥在过零丁洋中言:人生自古谁无死,留取丹心照汗青。世人皆有生命,而人与人之间生命价值却是不同的,生命的内涵及表象意义在亘古不断地被诠释和阐发,《一条绿丝带》的创
明清时期,伴随着江西填湖广地移民浪潮,江右商帮随之兴起,成为全国范围内规模仅次于晋商、徽商的第三大商帮。江右商人以人数多、活动范围广、涉及行业多等特点闻名于世。而
近年来,在我国经济高速发展的推动下,建筑业得到前所未有的发展机遇,建筑工程数量日益增多,不仅有效减轻了社会住房压力,提升人们的生活质量,还进一步推动了我国城市化发展进
中药市场需求日益增长,组培种苗已实现产业化生产。温度、光照、碳源、氮源、外源激素等理化因子对种苗生长及次生代谢产物合成影响明显,导致中药质量参差不齐。除形态、显微
我国纺织工业体量巨大,从业人员众多,也产生了可观的经济效益,是我国的传统支柱产业。但我国的纺织产品大多只能应用于中低端市场,高端市场几乎全被国外品牌占据。究其原因是