论文部分内容阅读
增强学习作为机器学习的一个分支,由于其模拟人类学习的独特理念,在马尔科夫决策过程问题上有很好的表现,如工业控制,棋类游戏以及自动驾驶等。另一方面在解决了一定程度上的梯度消失以及计算机浮点数运算能力的大幅度提高后深度神经网络的相关研究也有了十分显著的发展,并且以卷积神经网络为代表的深度神经网络在处理高维数据,尤其是图像数据的分类问题方面展现了优异的性能。在增强学习的相关研究中关于如何将神经网络,尤其是深度神经网络在处理高纬度数据上的优势与增强学习在马尔科夫决策过程问题上的优势相结合成了一个研究热点。在DeepMind发表的关于深度增强网络(Deep Q Network,DQN)的工作中,从神经适应性Q(Neural Fitted Q,NFQ)算法中获得启发,通过将深度神经网络作为增强学习中Q值的评估函数,并使用经验回放(Experience Replay)技术消除了输入样本之间的相关性,使得传统的Q学习算法在面对输入维度十分巨大的视频游戏时依然展现出了不错的成果。但DQN算法由于其基于时序差分更新方法的原因,学习效率较低。本文尝试从Q值的传播和前置状态优先级经验调整两个角度改进DQN算法。深度Q学习算法(DQN)中Q值更新的理论基础是贝尔曼方程,但由于其属于模型无关的算法,因此无法像动态规划一样使用贝尔曼方程自底向上计算所有状态的长期收益,并且仅靠一次的层次遍历就可规划出最优策略。DQN算法是通过不断在时间序列上差分地使用贝尔曼方程,通过不断地与环境交互并重复更新过程直至收敛。这一方法的实际效率比较低下。因此本文提出一种新的方法,通过利用需要被更新Q值的状态-动作对的前置以及后续状态上的信息,计算出其Q值的上下界来约束此次更新中目标Q值的范围,使得更新行为更加精确,从而达到提高算法性能的目的。另一方面,本文研究基于优先级经验回放的算法以尝试改进现有算法。在优先级经验回放的方法中,当一个样本被抽中后,只有该样本的抽样概率因为Q值被更新从而得到了新的抽样概率,而其他的相关状态并未有变动。但当一个样本的Q值被更新后,这一信息应该及时反馈给其前置样本,因为前置样本的更新依赖于该样本上的信息,所以前置状态的优先级也应相应提升使前置状态能够尽早利用到这一信息。因此本文在优先级经验回放的基础上,进一步通过调整被更新样本前置状态的优先级的方式使得抽样更为高效。最后,本文通过设置实验验证了上述算法。实验效果表明我们提出的算法在加速收敛和提高实验结果方面有显著效果。