基于谱图理论的强化学习研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:a630939408
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一类解决序贯优化决策问题的有效方法,强化学习应用于大规模或连续状态空间问题时会出现维数灾难。如何解决维数灾难,提高算法效率是现阶段强化学习面临的主要问题。谱图理论是一类可以揭示高维数据空间的内在拓扑结构的数学工具,近年来在复杂网络、图像视觉和流形学习等领域被广泛使用并取得巨大成功,将其引入强化学习中有重要的研究价值。为了提高强化学习算法的效率,本文主要从分层强化学习、基于流形距离的启发式强化学习和迁移强化学习三个方面研究了谱图理论在强化学习中的应用方法。在分层强化学习方面,本文借用多路谱聚类的相关理论与方法,提出了一种新的子任务策略求取方法和两种改进的任务分解方法;在启发式强化学习方面,针对基于目标位置的任务,本文建立了基于距离度量学习的启发式强化学习框架。在此框架下,将计算效率最高的拉普拉斯特征映射法应用于启发式回报函数设计、启发式策略选择和启发式Dyna规划三个方面,提出了三类启发式强化学习算法;在迁移强化学习方面,针对基于谱图理论的基函数迁移方法的不足,提出了一种基函数与子任务最优策略相结合的混合迁移方法。本文取得的主要研究成果如下:1.分层强化学习中的Option方法一般分为任务分解和子任务策略求取两部分。在任务分解部分,基于谱图分割的Option方法普遍存在需要手工确定子任务数目和应用范围有限的缺点。针对此问题,本文分析了其原因,并引入多路谱聚类的相关思想和特征值差法,提出了两种改进的Option自动分解算法。在子任务策略求取部分,现有的方法一般将其作为一个新的强化学习问题来处理,本文利用拉普拉斯特征映射能保持状态空间局部拓扑结构的特点,提出一种新的策略求取方法——虚拟值函数法。2.在基于目标位置的学习任务中,广义距离常作为启发式函数用于启发式回报函数设计、启发式动作选择和启发式Dyna规划中。如何根据任务的结构和性质定义广义距离是这类方法成功与否的关键。对于值函数在欧氏空间内不连续,但在流形上连续的情况,本文建立了基于距离度量学习的启发式强化学习框架。3.启发式回报函数的设计方法一般分为广义距离法和抽象模型法两类。对于广义距离法,在基于距离度量学习的启发式强化学习框架下,本文使用最简单的拉普拉斯特征映射法,提出了一种新的启发式回报函数设计方法。对于抽象模型法,本文将前述改进的Option生成算法用于抽象模型的产生中,提出了两种能自动实现子任务内势函数分解的启发式回报函数设计方法。4.仍然使用基于距离度量学习的启发式强化学习框架,针对强化学习的策略选择和Dyna规划,提出了一种新的启发式动作选择机制和一种改进的Dyna-Q规划算法。所提的两种方法都可以提高Q学习的初始学习性能。5.在状态空间比例放大的迁移任务中,基于谱图理论的原型值函数方法只能有效迁移较小特征值对应的基函数,用于目标任务的值函数逼近时会使部分状态的值函数出现错误。本文分析了值函数逼近错误的原因,并提出一种基函数与子任务最优策略相结合的混合迁移方法。所提的迁移方法能直接确定目标任务部分状态空间的最优策略,减少了值函数逼近所需要的最少基函数数目,降低了策略迭代次数,适合状态空间具有明显层次结构的迁移任务。全文的主要工作是围绕着强化学习的模型、立即回报、值函数和策略四个要素,提出了几种基于谱图理论的强化学习算法,并分析了它们的适用范围和计算复杂度。仿真研究的实验结果验证了所提算法的有效性和适用性。
其他文献
多元化经营是企业发展的必然,它有许多优点,也会带来诸多的财务风险。本文分析了多元化经营企业财务风险的内容及产生的原因,并提出了相应的对策和建议,以使多元化经营中的财
随着人们生活习性和膳食结构的改变,结直肠癌发生率已在全球范围位居第三。叶酸对结直肠癌在内的多种肿瘤有一定防范作用,且能抑制结直肠癌个体术后黏膜细胞增生。FOLR1基因
《聊斋志异》是蒲松龄通过搜集、整理和创作的鬼狐故事集。在题材上,故事多取材于民间故事传说,在思想上也便显出人民性;在创作上,虽然是文人小说,继承了史家叙事方法和志怪
目的:通过实验设立兔VX2骨转移瘤动物模型,观察确定适合穿刺装置穿刺活检的时间,明确适宜的穿刺时间后,通过PCNA免疫组化技术,验证自制改良穿刺装置的效果。方法:实验所应用
[目的]研究聊城市210个园地土壤样品有效磷状况。[方法]采集具有代表性的园地土壤样品210个,采用LY/T 1232—2015碳酸氢钠浸提法测定土壤样品中的有效磷含量。[结果]聊城市土