论文部分内容阅读
随着无人驾驶领域的快速发展,深度确定性策略梯度算法逐渐成为主流应用方法。在复杂环境下,动作维度较高时DDPG算法无法区分最优动作和次优动作之间的差距,针对这一问题,本文提出一种基于DDPG算法的优化评价改进算法(Deep Deterministic Policy Gradient with Optimization Evaluation,OE-DDPG)。通过改进算法的损失函数并加入Dropout机制从而拉开最优动作与次优动作TD_error值的差距。本文将OE-DDPG算法应用于难度环境不同的无人驾驶汽