论文部分内容阅读
强化学习以其生物相关性和学习自主性在机器学习领域和人工智能领域引发了极大的关注,并在多个领域体现了其应用价值。但一直以来学习速度慢和学习效率低的问题严重阻碍了强化学习应用于具有大规模状态空间的复杂问题。当前有两类方法对加速强化学习比较有效,一是分层强化学习,从任务分解的角度来加速学习;二是引导强化学习,从引导Agent学习减少搜索空间的角度来加速学习。但它们都存在一个共同的缺陷:学习任务的分解和引导信号的提供都依赖于外部观察者。这使得这两类方法加速强化学习的能力都受限于外部观察者对要解决问题的处理能力,如果外部观察者对要解决的问题不能划分出子任务和提供引导信号,那么这两类方法也就失效了。本文提出了一种可以利用Agent前期学习知识和经验来为Agent后续学习分解学习任务和提供引导信号的加速强化学习方法:基于引导贝叶斯网的强化学习(SBN-RL),该方法既可以从任务分解的角度加速学习,也可以从引导Agent学习减少搜索空间的角度加速学习,并且学习任务的分解和引导信号的提供都是完全根据Agent前期学习获得的知识和经验来进行的,彻底摆脱了对外部观察者的依赖,解决了传统加速强化学习方法中学习加速能力受制于外部观察者的问题,实现了Agent不仅能够自主学习也能够自主加速学习。通过Agent在每一次学习训练情节获得的状态动作转换序列,先求出表示了该次学习所获得的局部状态空间知识和局部状态空间转换知识的链串,然后再利用多次训练情节学习累积起来的链串构建出Agent对整个全局状态空间的认知模型:引导贝叶斯网,来表示和记录Agent在学习过程中累积的知识和经验。通过以引导贝叶斯网中对于Agent到达目标状态是“必经之路”的关键状态作为Agent到达目标状态前的阶段性子目标,整个学习任务可以被分解成一系列较小的学习子任务。达到了和传统分层强化学习一样利用任务分解来加快学习的目的,但这里的任务分解却是Agent通过自身构建起来的引导贝叶斯网进行的,摆脱了对外部观察者的依赖;同样,引导贝叶斯网中按距离目标状态远近分层的关键状态也为Agent提供了从初始状态到目标状态的分布于整个状态空间的全程引导,达到了和传统引导强化学习一样通过减少Agent搜索空间来加快学习的目的,但这里的引导信号完全来自于Agent自身构建起来的引导贝叶斯网,彻底摆脱了对外部观察者的依赖。通过从累积链串构建出引导贝叶斯网使Agent能够自主实现任务分解和学习引导来加速强化学习,使Agent不仅能够自主学习也能够自主加速学习,是本文最重要的贡献。具备自主分解学习任务和自主引导学习的能力,是使强化学习可以真正拓展到外部观察者也难以把握和解决的具有大规模状态空间的复杂问题的基本前提条件。在实现SBN-RL方法的过程中,本文还进一步研究了如何利用链串来加快值函数收敛而加速强化学习的问题,以及如何利用多个Agent共享链串来加速强化学习的问题;研究了在没有明显“必经之路”关键状态下如何利用引导贝叶斯网中整层关键状态作为阶段性子目标的问题;研究了如何发现关卡状态协同关键状态分隔原始状态空间的问题;证明了从局部状态空间中求出的阶段性最优解合成得到的最优解等价于从原始状态空间求出的最优解;探讨了如何利用引导贝叶斯网来改进和完善现有的一些加速强化学习的研究工作。最后在多路口交通灯最优控制问题上验证了SBN-RL方法在有较大规模状态空间的实际问题中的应用效果。为此本文专门开发实现了一个多路口的城市交通网络模拟运行环境MIUTS,然后使用SBN-RL方法解决在MIUTS模拟环境中多路口交通灯最优控制问题,使得进入该城市交通网络的所有车辆在最短的时间内通过并离开该城市交通网络。该问题是一个非常典型的具有较大规模状态空间的多Agent学习问题。从应用SBN-RL方法的试验效果来看,SBN-RL方法可以有效地构建出引导贝叶斯网,清晰地划分出阶段性子任务,为Agent提供全程的引导减少搜索空间。当使用SBN-RL方法把学习任务分解成2个子任务时,对学习得到同一个最优解,SBN-RL方法比传统强化学习方法Q学习减少了至少60%以上的学习时间;与传统的交通灯定时控制对比来看,采用SBN-RL求出的最优解控制交通灯可以使所有车辆离开城市交通网络耗费的时间缩短20-30%,可见SBN-RL方法对处理这种具有较大规模状态空间的多Agent学习问题是非常有效的。从Agent可以根据自身学习的知识和经验构建出引导贝叶斯网再用于加快自身后续的学习,本文的工作的确使得Agent能够自主加速学习。