论文部分内容阅读
强化学习作为人工智能领域的重要研究分支,近年来得到了越来越多的关注。随着国内外著名高科技公司,如谷歌、IBM、百度等纷纷加大了对人工智能研究的投入,而今年我国政府工作报告中也提到了要编制人工智能的专项规划,可以说,一个全面的AI时代即将来临。因此,如何把强化学习与传统控制问题相结合,使机器更为智能,是当前研究的热点。平衡车作为一款经典的被控制对象,具有多变量、强耦合、绝对不稳定等特点,是进行算法研究的理想被控对象。但截至目前,关于强化学习的应用还未被广泛推广,而平衡车的控制则以传统控制理论居多。 传统的强化学习算法主要是基于离散量的,需要依赖于一个存储值函数的表格来选择动作输出,而对平衡车的控制是一个包含连续量的控制问题,难以直接适用这种方法。基于这种情况,本文首先针对于连续状态的问题,研究了值函数逼近的方法,利用神经网络强大的泛化能力,通过存储一组权重值来间接的描述值函数,从而实现从状态到值函数的映射关系,取代了传统强化学习算法中的值函数表,并通过仿真实验验证了其具备处理连续状态的能力。在此基础上,分析了Actor-Critic算法框架,考虑将策略参数化处理后进行直接的策略搜索,实现输出连续的动作,并与值函数逼近的方法相结合。具体实现上,使用两个BP神经网络分别充当Actor和Critic单元,把状态信息作为网络的输入,直接得到值函数和动作的输出,并基于强化学习过程中的TD误差来进行网络的训练。由于每一个时间步只能通过自举的方法获得一个样本数据,采取了随机梯度法来进行权重的调整。 对于本文研究的控制对象,采用拉格朗日法对平衡车建立了精准的数学模型,模拟了状态转移的过程,基于该模型,仿真结果表明本文所提算法具备有处理连续状态和连续动作的能力,并且实现了很好的控制效果。