论文部分内容阅读
目前大多数都是使用以值为基础的Q函数如DQN强化学习算法进行研究,减少了对更加直观的以策略方法为基础的强化学习算法的研究。且在游戏领域中,连续高维的状态动作分布是决策问题应用强化学习所面临的一个巨大困难,为解决这一问题,本文将通过基础方法策略搜索方法——确定性策略梯度算法作出研究,并分析确定性策略梯度算法的优缺点,对于其缺陷进行改进,提出双剪切策略梯度算法改进模型,并探讨不同的改进部分对实验结果的影响。最后在游戏平台上选择四个连续高维的任务进行训练,以证明改进算法在解决此问题的性能提升水平。本文主要进行了五个部分的阐述。(1)首先对强化学习的本质问题与发展应用领域进行了简明介绍,接着介绍了基础的方法——深度学习,阐述了其发展历史与现状,最后对深度强化学习DRL的发展进行了简述;(2)分析了强化学习的数学模型架构——马尔科夫决策过程,和贝尔曼最优解,并引出了强化学习的基础方法,值迭代方法和策略迭代方法,然后分析了无模型环境中基于值迭代法和策略迭代法的两种强化学习策略求解方法——蒙特卡洛方法与时序差分法。(3)根据前一章的策略迭代和时序差分方法,提出需要改进的基础方法确定性策略梯度算法,结合其优缺点提出本文的改进算法——双剪切策略梯度算法。分析Q估值网络所带来的的偏差问题以及更新累积误差问题,并提出双剪切Q学习、目标网络和延迟策略更新、以及目标策略平滑正则化三个改进措施。(4)在以GYM接口MuJoCo中的游戏作为环境平台,采用相同环境和网络结构,与同为策略迭代的算法进行性能比较,并对改进算法的不同部分进行一系列消融试验,对比算法的性能,最后对实验结果影响做出了探讨。(5)对本文内容进行了总结,并对确定性策略梯度算法出现的未解决问题进一步阐述,并提出对未来此算法改进与应用的展望。