论文部分内容阅读
自动驾驶汽车集环境感知、智能决策和协同控制于一体,能充分协调车辆与交通环境的关系,保证车辆的平稳安全行驶,是汽车未来发展的一个重要方向。实现高水平的自动驾驶技术,有助于减少交通事故,避免交通堵塞,提高乘客的出行效率。目前,传统的自动驾驶辅助系统通常采用基于规则的专家系统作为决策模块,但有限的规则很难处理复杂多变的交通环境。深度强化学习可以通过试错学习策略来处理序贯决策问题,因此本文将深度强化学习应用到仿真环境下的自动驾驶研究,提出了一种自动驾驶智能决策算法。具体完成的工作有:第一,本文以深度确定性策略梯度算法(DDPG)为基础,提出了基于种群的深度确定性策略梯度算法(PBDDPG)。该算法通过多个智能体相互竞争,解决了DDPG算法对超参数的依赖。并且在训练过程中,通过利用其他智能体的目标策略网络作为辅助网络,解决了DDPG算法存在的过估计问题。而全局经验回放池和优先经验回放池技术,有效的打破了样本之间的相关性,一定程度上修正了样本的分布,提高样本的利用率。第二,在经典的强化学习仿真环境中,对比了PBDDPG算法和DQN、DDPG、TD3等确定性强化学习算法的学习效率和性能。第三,完成了自动驾驶仿真系统的搭建。调研了目前主流的自动驾驶仿真器并设计了智能体性能的评估指标和强化学习过程中奖励、状态、动作和神经网络,为自动驾驶实验设置基础条件。第四,在Ubuntu系统中搭建了Torcs仿真环境,并进行实验分析。实验数据显示,相对于传统的DDPG,PBDDPG算法训练过程更为稳定,而且有出色的泛化能力,在新的环境中依然有很好的性能。同时我们还分析了超参数的动态变化情况,所有的超参数变化趋势均符合预期。最后我们分析了种群数量对最终策略性能的影响,并给出了选择智能体数量的方案与超参数初始化方案。通过以上分析,证明了本文提出的PBDDPG算法在自动驾驶决策任务中有良好的表现。