论文部分内容阅读
自动驾驶技术一直在人工智能领域中扮演着重要角色,是汽车行业未来的发展方向,无人车控制策略研究是自动驾驶技术突破面对的核心问题。因此,本文将设计一个深度强化学习算法,能够实现从输入端到输出端的直接控制,进一步解决自动驾驶领域存在的控制策略难题,提升出行和驾驶体验。本文基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,分析设计了基于经验分类指导的深度确定性策略梯度算法(DDPG with Classified Experience Conducted,CEC-DDPG),核心改进是增加了多经验池分类存放机制和随机指挥家网络。无人车能够通过该算法快速找到合理的控制策略,顺利完成无人驾驶任务。CEC-DDPG算法专门设计了一个“人才池”存放近期的优质样本数据,通过TD-error比较法和高回报分类法定义优质样本,优质经验样本数据存放至“人才池”。算法在进行经验样本存储前首先将其分类,仅增加了O(1)的时间复杂度,却有效提高了优质样本的利用率。同时基于“人才池”构建了随机指挥家网络,输出的指导策略与演员策略共同集成为当前控制策略。随机指挥家网络基于“人才池”不断更新的优质经验进行网络更新,并且改变了评论家网络的更新方式,能够有效提高算法中各个网络的学习效率。本文从理论上对CEC-DDPG算法的各个网络参数更新进行了推导。本文使用TORCS(The Opening Racing Car Simulator)作为无人车控制系统的仿真测试平台。针对无人车在过弯时速度控制不合理的问题重新设计了奖励函数,达到了预知弯道项并提前刹车的目的。并通过实验调试的方式确定了“人才池”的最佳采样比。基于TORCS仿真系统对CEC-DDPG算法进行了实验仿真验证。实验数据表明,本文设计的CEC-DDPG算法,相较于DDPG算法,在策略学习速度、跟踪误差表现和控制策略泛化性能等多个方面表现更好,学习过程更加稳定,能够完成无人自主行使任务。验证了CEC-DDPG算法在无人车控制策略输出中的可行性和优越性。