论文部分内容阅读
目前在深度强化学习方法中,大多数算法都局限于稳定性低和低可复性。而最近的一些方法(如近端策略优化算法PPO)只是限制在较低速度下进行策略更新以保持稳定性。在本文中,我们在Advantage Actor-Critic算法(A2C)架构下对问题进行建模,进行进一步分析。本文在策略梯度算法家族中,通过分析其策略更新不稳定及其在离散状态的局限性,结合PPO算法的梯度不相关的优异性和在离散状态下的适应性,提出一种新的算法——Fast-PPO,以获得更好梯度估计。该算法通过利用最优基线,提高了回报极限,同时加快了收敛速度。我们在理论上证明了Fast-PPO中回报函数的上下界。并用目前流行的高维连续基准实验进行测验,以说明算法的优异性。在扩展实验中,首先在稳定的环境中,Fast-PPO比其他的算法有更广的运用范围。其克服了Q-learning系列算法仅仅用于离散空间和PG(策略梯度)系列算法仅仅只用于连续空间的缺点。Fast-PPO无论在离散还是连续空间都具有一定的优势。其次,针对多智能环境,Fast-PPO算法运用到Tennis游戏,足球游戏,实现多智能体控制,实验证明Fast-PPO在多智能体的合作和对抗上也有充分的优势。最后,将Fast-PPO算法运用到复杂环境中,如柯基捡木棍和无人机控制。柯基捡木棍具有一定的生活乐趣。而无人机的训练是当今军事中训练的热点,也是未来是否能够在空中作战取得胜利的关键。在目前的RL算法中,Fast-PPO算法在无人机的控制上,几乎能够应对现在无人机的路径规划问题,具有一定的现实意义。