两轮平衡车的强化学习控制算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tonghuasong00000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习作为人工智能领域的重要研究分支,近年来得到了越来越多的关注。随着国内外著名高科技公司,如谷歌、IBM、百度等纷纷加大了对人工智能研究的投入,而今年我国政府工作报告中也提到了要编制人工智能的专项规划,可以说,一个全面的AI时代即将来临。因此,如何把强化学习与传统控制问题相结合,使机器更为智能,是当前研究的热点。平衡车作为一款经典的被控制对象,具有多变量、强耦合、绝对不稳定等特点,是进行算法研究的理想被控对象。但截至目前,关于强化学习的应用还未被广泛推广,而平衡车的控制则以传统控制理论居多。  传统的强化学习算法主要是基于离散量的,需要依赖于一个存储值函数的表格来选择动作输出,而对平衡车的控制是一个包含连续量的控制问题,难以直接适用这种方法。基于这种情况,本文首先针对于连续状态的问题,研究了值函数逼近的方法,利用神经网络强大的泛化能力,通过存储一组权重值来间接的描述值函数,从而实现从状态到值函数的映射关系,取代了传统强化学习算法中的值函数表,并通过仿真实验验证了其具备处理连续状态的能力。在此基础上,分析了Actor-Critic算法框架,考虑将策略参数化处理后进行直接的策略搜索,实现输出连续的动作,并与值函数逼近的方法相结合。具体实现上,使用两个BP神经网络分别充当Actor和Critic单元,把状态信息作为网络的输入,直接得到值函数和动作的输出,并基于强化学习过程中的TD误差来进行网络的训练。由于每一个时间步只能通过自举的方法获得一个样本数据,采取了随机梯度法来进行权重的调整。  对于本文研究的控制对象,采用拉格朗日法对平衡车建立了精准的数学模型,模拟了状态转移的过程,基于该模型,仿真结果表明本文所提算法具备有处理连续状态和连续动作的能力,并且实现了很好的控制效果。
其他文献
三维测量技术正以其巨大的优势在包括工业、国防、医疗、影视及娱乐在内的诸多行业发挥日益重要的作用。摄像机标定则是三维测量技术中至关重要的前期步骤,其精度在很大程度上
在中国建造的LAMOST望远镜建成后,每晚将有2~4万条光谱需要进行自动的分类识别及参数测量,因此急需研究相应的技术和算法.该文针对天体光谱的自动识别问题进行了研究.结合已
本文按照总体设计方案——硬件电路设计——软件设计——功能及界面介绍——典型实测曲线分析的思路论述了以下主要内容:◆基于便携式计算机柴油机测试系统的研制的总体设计
移动机器人要实现在未知和不确定环境下自主的工作,应具有感受作业环境和规划自身动作的能力.为此,必须提高移动机器人对当前环境的快速感知、理解和识别能力以及导航功能.该
图像特征提取是计算机视觉的基本问题,是图像匹配、物体识别、视频分析、图像检索等问题的基础与重要组成部分。自提出以来,研究人员在这个领域已经取得了许多卓越的成果,尤
虚拟现实技术在远程教育、虚拟购物、电力系统、飞行仿真、数字化地球和游戏娱乐等领域都有广泛的应用。这些应用不仅要生成高度真实的复杂虚拟环境,而且用户要和虚拟环境进行
建筑,家具等行业中,对木板材的宏观美学与质量的要求越来越高,木材纹理是反映木板材宏观美学与质量的一个重要因素。针对木板材加工业中,目前没有完善的描述木材表面纹理的国
论文以汽车作为应用背景,针对汽车制动控制系统ABS(EBD),研究电子控制系统的性能评估及其在控制系统匹配试验中的应用。本文做以下几个方面的工作:1. 研究了非线性控制系统的控
随着全球钢铁行业日趋激烈的竞争,竞争的焦点落在如何有效实现多品种小批量生产、质优价廉、准时交货上面,以适应钢铁市场复杂多变的需求。所有这些都与钢铁生产的动态调度密切
人脸检测是确定人脸的位置、大小、位姿的图像处理过程。近年来,在模式识别与计算机视觉领域,已经成为一个受到普遍重视、研究十分活跃的方向。 本文针对复杂背景下的彩色图