深度增强学习的改进研究

来源 :东南大学 | 被引量 : 3次 | 上传用户:qq237599512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
增强学习作为机器学习的一个分支,由于其模拟人类学习的独特理念,在马尔科夫决策过程问题上有很好的表现,如工业控制,棋类游戏以及自动驾驶等。另一方面在解决了一定程度上的梯度消失以及计算机浮点数运算能力的大幅度提高后深度神经网络的相关研究也有了十分显著的发展,并且以卷积神经网络为代表的深度神经网络在处理高维数据,尤其是图像数据的分类问题方面展现了优异的性能。在增强学习的相关研究中关于如何将神经网络,尤其是深度神经网络在处理高纬度数据上的优势与增强学习在马尔科夫决策过程问题上的优势相结合成了一个研究热点。在DeepMind发表的关于深度增强网络(Deep Q Network,DQN)的工作中,从神经适应性Q(Neural Fitted Q,NFQ)算法中获得启发,通过将深度神经网络作为增强学习中Q值的评估函数,并使用经验回放(Experience Replay)技术消除了输入样本之间的相关性,使得传统的Q学习算法在面对输入维度十分巨大的视频游戏时依然展现出了不错的成果。但DQN算法由于其基于时序差分更新方法的原因,学习效率较低。本文尝试从Q值的传播和前置状态优先级经验调整两个角度改进DQN算法。深度Q学习算法(DQN)中Q值更新的理论基础是贝尔曼方程,但由于其属于模型无关的算法,因此无法像动态规划一样使用贝尔曼方程自底向上计算所有状态的长期收益,并且仅靠一次的层次遍历就可规划出最优策略。DQN算法是通过不断在时间序列上差分地使用贝尔曼方程,通过不断地与环境交互并重复更新过程直至收敛。这一方法的实际效率比较低下。因此本文提出一种新的方法,通过利用需要被更新Q值的状态-动作对的前置以及后续状态上的信息,计算出其Q值的上下界来约束此次更新中目标Q值的范围,使得更新行为更加精确,从而达到提高算法性能的目的。另一方面,本文研究基于优先级经验回放的算法以尝试改进现有算法。在优先级经验回放的方法中,当一个样本被抽中后,只有该样本的抽样概率因为Q值被更新从而得到了新的抽样概率,而其他的相关状态并未有变动。但当一个样本的Q值被更新后,这一信息应该及时反馈给其前置样本,因为前置样本的更新依赖于该样本上的信息,所以前置状态的优先级也应相应提升使前置状态能够尽早利用到这一信息。因此本文在优先级经验回放的基础上,进一步通过调整被更新样本前置状态的优先级的方式使得抽样更为高效。最后,本文通过设置实验验证了上述算法。实验效果表明我们提出的算法在加速收敛和提高实验结果方面有显著效果。
其他文献
目的探讨知信行护理模式在护理安全管理中的应用研究。方法选取某院13个护理单元,2016年12月为实施前,2017年1月至12月为实施后,共有246名护士,通过对护士长护理风险管理认知
目的观察养阴清热化痰法治疗青中年失眠患者的疗效。方法将92例青中年失眠患者随机分为中药治疗组47例和西药对照组45例,分别采用中药养阴清热化痰组方和阿普唑仑治疗。治疗
随着素质教育的不断推广,国民综合素养得到全面提升。在素质教育中,艺术审美教育是不可或缺的,其是素质教育的核心,具有深远影响。在培养社会发展需要型人才中,艺术审美教育
本文针对我国农业四个方面的弱小性,从一般大农业的内涵出发,将大农业的内涵深化和扩展为四个层次,论述各层次内涵的必要性及特征。
采用惯性摩擦焊方法进行了GH4169高温合金的焊接,用金相显微镜、,扫描电镜下EDS分析和硬度试验等方法分析了接头组织和性能.结果表明:惯性摩擦焊焊缝与母材无明显界线,结合良
"触れる"和"触る"两个词虽然都是表示人体或物体与另一个人体或物体相互接触的动词,但两个词在意义的细微之处有许多不同,即使在可以互换时,其内涵也有所不同。首先,"触れる"使用的
社会或组织为僵化机制和传统观念所束缚,变得静止停滞,迫切要更新的具有超凡魅力的领导者来引发革命性的突破。
复合中型散装容器(中型散装容器的英文名称为Intermediate Bulk Container,简称IBC,)自1975年由世界著名工业包装容器生产商——德国舒驰公司(Schuetz GmbH& Co.KGaA)推向市场,至今已
阐述了图书馆微信公众平台使用现状,分析了图书馆应用微信公众平台开展信息推送服务的优势与不足,进而探讨了图书馆应用微信公众平台更有效地开展信息推送服务的两种模式,即
<正>一、教材的地位和作用数列向来是中职教材中代数部分的重要内容之一,它不仅有着广泛的实际应用,而且起着承前启后的作用,一方面,数列作为一种特殊的函数,与函数思想密不