加速强化学习方法研究

来源 :云南大学 | 被引量 : 23次 | 上传用户:jiayin228699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习以其生物相关性和学习自主性在机器学习领域和人工智能领域引发了极大的关注,并在多个领域体现了其应用价值。但一直以来学习速度慢和学习效率低的问题严重阻碍了强化学习应用于具有大规模状态空间的复杂问题。当前有两类方法对加速强化学习比较有效,一是分层强化学习,从任务分解的角度来加速学习;二是引导强化学习,从引导Agent学习减少搜索空间的角度来加速学习。但它们都存在一个共同的缺陷:学习任务的分解和引导信号的提供都依赖于外部观察者。这使得这两类方法加速强化学习的能力都受限于外部观察者对要解决问题的处理能力,如果外部观察者对要解决的问题不能划分出子任务和提供引导信号,那么这两类方法也就失效了。本文提出了一种可以利用Agent前期学习知识和经验来为Agent后续学习分解学习任务和提供引导信号的加速强化学习方法:基于引导贝叶斯网的强化学习(SBN-RL),该方法既可以从任务分解的角度加速学习,也可以从引导Agent学习减少搜索空间的角度加速学习,并且学习任务的分解和引导信号的提供都是完全根据Agent前期学习获得的知识和经验来进行的,彻底摆脱了对外部观察者的依赖,解决了传统加速强化学习方法中学习加速能力受制于外部观察者的问题,实现了Agent不仅能够自主学习也能够自主加速学习。通过Agent在每一次学习训练情节获得的状态动作转换序列,先求出表示了该次学习所获得的局部状态空间知识和局部状态空间转换知识的链串,然后再利用多次训练情节学习累积起来的链串构建出Agent对整个全局状态空间的认知模型:引导贝叶斯网,来表示和记录Agent在学习过程中累积的知识和经验。通过以引导贝叶斯网中对于Agent到达目标状态是“必经之路”的关键状态作为Agent到达目标状态前的阶段性子目标,整个学习任务可以被分解成一系列较小的学习子任务。达到了和传统分层强化学习一样利用任务分解来加快学习的目的,但这里的任务分解却是Agent通过自身构建起来的引导贝叶斯网进行的,摆脱了对外部观察者的依赖;同样,引导贝叶斯网中按距离目标状态远近分层的关键状态也为Agent提供了从初始状态到目标状态的分布于整个状态空间的全程引导,达到了和传统引导强化学习一样通过减少Agent搜索空间来加快学习的目的,但这里的引导信号完全来自于Agent自身构建起来的引导贝叶斯网,彻底摆脱了对外部观察者的依赖。通过从累积链串构建出引导贝叶斯网使Agent能够自主实现任务分解和学习引导来加速强化学习,使Agent不仅能够自主学习也能够自主加速学习,是本文最重要的贡献。具备自主分解学习任务和自主引导学习的能力,是使强化学习可以真正拓展到外部观察者也难以把握和解决的具有大规模状态空间的复杂问题的基本前提条件。在实现SBN-RL方法的过程中,本文还进一步研究了如何利用链串来加快值函数收敛而加速强化学习的问题,以及如何利用多个Agent共享链串来加速强化学习的问题;研究了在没有明显“必经之路”关键状态下如何利用引导贝叶斯网中整层关键状态作为阶段性子目标的问题;研究了如何发现关卡状态协同关键状态分隔原始状态空间的问题;证明了从局部状态空间中求出的阶段性最优解合成得到的最优解等价于从原始状态空间求出的最优解;探讨了如何利用引导贝叶斯网来改进和完善现有的一些加速强化学习的研究工作。最后在多路口交通灯最优控制问题上验证了SBN-RL方法在有较大规模状态空间的实际问题中的应用效果。为此本文专门开发实现了一个多路口的城市交通网络模拟运行环境MIUTS,然后使用SBN-RL方法解决在MIUTS模拟环境中多路口交通灯最优控制问题,使得进入该城市交通网络的所有车辆在最短的时间内通过并离开该城市交通网络。该问题是一个非常典型的具有较大规模状态空间的多Agent学习问题。从应用SBN-RL方法的试验效果来看,SBN-RL方法可以有效地构建出引导贝叶斯网,清晰地划分出阶段性子任务,为Agent提供全程的引导减少搜索空间。当使用SBN-RL方法把学习任务分解成2个子任务时,对学习得到同一个最优解,SBN-RL方法比传统强化学习方法Q学习减少了至少60%以上的学习时间;与传统的交通灯定时控制对比来看,采用SBN-RL求出的最优解控制交通灯可以使所有车辆离开城市交通网络耗费的时间缩短20-30%,可见SBN-RL方法对处理这种具有较大规模状态空间的多Agent学习问题是非常有效的。从Agent可以根据自身学习的知识和经验构建出引导贝叶斯网再用于加快自身后续的学习,本文的工作的确使得Agent能够自主加速学习。
其他文献
2009年,国防科技大学研制了国内首台千万亿次超级计算机系统“天河一号(Tianhe-1)”。2010年,国防科学技术大学在“天河一号”的基础上进行了扩充与升级,新的“天河一号A(Tianhe-1A
诱导教学法是以激发运动员兴趣为主,教师讲解示范为辅的综合性教学法,不仅能够在点燃运动员热情方面更有效,而且也关注到了传统教学原理的讲授,是一种综合性的教学法。本文从
模糊控制是基于美国学者Zadeh L A教授于1965年提出的“模糊集”概念发展起来的一种智能控制方法。模糊控制方法及其理论研究主要是针对不同类型的模糊系统提出相应的控制方
大规模在线开放课程是信息化时代的产物,它极大地推动了高等教育教学模式的改革,为翻转课堂、混合式教学提供了支撑条件,充分体现了'以学习者为中心'的教学理念。文
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨PDA在临床护理中的应用效果。方法在医院数字化平台的基础上,利用网络掌控电脑(PDA)实现患者身份识别、信息采集、医嘱执行、数据统计等功能。结果应用PDA能有效预防
20世纪90年代以来,随着经济全球化的不断发展、消费者需求的多样化、信息技术的进步,企业竞争的加剧以及市场变化不确定性日益增强,在竞争激烈的市场中能够牢牢地占据一席之
在侦探小说中加入大量的中国古典以及西方现代派诗歌,是裘小龙写作的一大特色,现代诗歌翻译家与诗人的背景和身份使他的侦探小说别具一格。裘小龙不仅塑造了一个完全不同于陈
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
通常,网络化控制系统(Networked Control System,NCS),也称为基于网络的控制系统,就是通过实时网络构成闭环控制的一种反馈控制系统。它的主要特征就是通过网络实现控制器、