基于自适应学习率的快速策略梯度强化学习算法的研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:qqshe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能这个词已经成为了近年来的热门词汇,而强化学习就是其中一个备受关注的分支。它是一种面向智能体的学习,强调的是智能体经过与环境的相互作用,来学习如何根据交互给出的反馈产生行动,最终实现问题目标的学习方法。强化学习中的求解最优策略算法有很多,其中可以根据解决问题的类型大致分为基于值函数的方法和策略梯度的方法。基于值函数的算法并不必显式的表达出动作策略函数,获得最优值函数的方式是通过交互不断地更新状态动作对的累积奖赏期望。价值函数方法在解决随机策略问题上仍然存在很大困难。例如,当学习问题涉及到高纬度的状态或者动作空间时,算法并不能够保证很好的收敛。而策略梯度算法除了能够明确地表达策略功能,而且还会在循环的学习迭代中,不断的提升函数相关的参数向量,最后接近策略函数的最优解。由于此方法收敛性很好,受到业界越来越多的关注。策略梯度方法的另外的优势是基于概率输出采取的动作。但它不能忽视的缺点是在实现目标的过程中收敛速度较慢。因此,可以考虑如果结合这两种算法的优势,那么将会有效地提高算法的收敛速度及稳定性。本文的出发点是选择动作-评价网络作为整体算法的框架,利用策略梯度算法进行网络训练,并针对策略梯度算法存在收敛性不高,稳定性不强的缺点,通过对动作网络中的超参数设计了自适应学习率改进超参数的调节,实现快速稳定的策略梯度算法。基于以上内容,论文主要的研究和贡献可以概括为以下两个方面:1.本文首先在基于动作-评价网络结构的折扣模型中运用自然策略梯度算法(NAC)来提高算法的收敛速度和稳定性。同时,为了解决网络中的超参数调节时费时费力并且不精准的问题,本文选取运用Adadelta算子自适应的调整动作-评价网络中和学习速率相关的超参数,并进一步提高Adadelta-自然策略梯度动作-评价算法(A-NAC)的收敛速度和稳定性。通过实验结果证明,与常规的梯度方法相比较,算法NAC/A-NAC具有更好的学习效率和更快的收敛速度。2.上一部分内容适用于低维的离散的环境,为了将算法推广连续输入输出、且维度较高的学习任务中,本文考虑通过改进确定性策略梯度(DPG)算法,用于解决连续动作场景下的强化学习问题,例如无人机方向的控制,视频游戏,工业中多维度机械臂的控制等现实问题。因为自然梯度较好的收敛性能,本章节将自然梯度改进了确定性策略梯度算法中动作网络的算法,得到了自然确定性策略梯度算法(N-DPG),提高算法收敛时的稳定性。为了确保充分的探索,结合异策略动作-评价算法,该算法从探索动作策略中学习确定性策略。本文也在理论上证明了 N-DPG算法的收敛性,并进行了详细的实验验证。实验结果也证明了 N-DPG在高维动作空间中的性能明显优于其他的算法。
其他文献
目的:应用实时三维超声(RT 3DE)和二维斑点追踪技术(2D STI)参数评价希氏束起搏患者术后的疗效。方法:选取2016年12月至2019年1月在我院心内科接受希氏束起搏的患者共51例,其
随着计算机技术的飞速发展以及电子商务技术的日趋成熟,贸易的方式开始有了巨大的转变。从传统的贸易方式中产生了一种新的贸易方式——易货,它是以专业的电子商务平台为基础
随着5G时代的到来,人们对通信中的可靠性要求越来越高。极化码作为5G移动宽带中的一种编码方案,它虽然是较新提出的一种理论上能够达到香农极限的信道编码,且具有较低复杂度
进入21世纪.中国艺术设计产业随着经济文化的发展正逐步壮大。目前大多数高校都开设了艺术设计专业。艺术设计是一个兼备艺术与技术的专业,培养应用型复合人才一直是各高校追求