数据驱动Q学习镇定控制

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:huaweibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于现代控制理论受制于系统的模型复杂程度与模型假设的可行性,无法对实际生产应用中越来越复杂的控制对象产生良好的镇定效果。系统复杂度提高的同时,由于计算机科学的发展,也使得这些复杂系统在生产运行中产生了大量的数据,这些数据相比较基于机理建立的系统模型包含了更多的被控对象动态信息。直接利用这些测量数据,跳过建模过程,即利用数据驱动(Data-Driven Control)的方式对复杂系统设计出满足性能要求的控制器具有十分现实的意义。针对数据驱动/无模型的控制器设计方法有很多,近似Q学习(Approximate Q-Learning,AQL)作为一种典型的强化学习(Reinforcement learning,RL)方法,由于其在被控对象的知识或者模型未知时求解非线性最优镇定控制问题的突出效果,近年来受到了广泛的关注。然而,由于函数逼近误差的存在,近似Q学习(AQL)算法只能给出非线性最优镇定控制问题的近似最优解。因此,最优性误差界的定量分析是一个十分关键的问题。这个问题在已发表的国内外文献中并没有被彻底的解决。本论文利用值迭代近似Q学习(AQL)方法求解数据驱动/无模型的最优镇定控制问题,并创新的提出了一种新的最优性误差界分析框架。主要研究内容如下:首先,为了便于可以清晰简洁地分析非线性动态系统最优镇定控制问题的最优性误差界,基于对被控对象闭环系统吸引域(Domain of Attraction,DOA)的估计,给出了非线性动态系统Q学习算子的概念,并给出了 Q学习算子的性质,对Q学习算子进行了严谨定义。其次,给出了值迭代近似Q学习(AQL)算法,该算法可以得到一个次优控制器。最后,高斯过程回归(Gaussian Processes Regression,GPR)是定义在函数分布上的贝叶斯建模过程,使用高斯过程回归(GPR)作为Q函数的函数估计器,高斯过程回归(GPR)可以将预测结果的标准差作为函数近似误差界。进而给出了 Q函数估计的误差范围以及值迭代近似Q学习闭环最优性误差界的定量分析结果,也就是最优指标与闭环系统近似Q学习(AQL)实际指标之间的误差界。本论文对线性被控对象、非线性被控对象和倒立摆模型分别进行了仿真实验,实验成果表明,基于值迭代近似Q学习(AQL)算法,通过本论文提出的最优性误差界分析框架,可以得到被控对象基于数据驱动控制的一个次优控制器,并给出了最优性误差界。从本文的主要成果中可以看出,当用于估计Q函数的有效数据数量和迭代算法迭代的次数都趋于无限的,最优性误差界为零。
其他文献
随着全民健身国家战略的落实和有效推进,国家经济水平的提升,人们生活水平也随之提高,人们认识到体育锻炼的重要性,越来越多的人参与到体育锻炼中来,尤其是在国家推出一系列
铜绿假单胞菌SJTD-1是从石油污染的土壤中分离出的一株新型假单胞菌。本课题组以往的研究结果表明此菌可代谢C12C30的正构烷烃,并且能够以烷烃作为唯一碳源在无机盐环境下生
随着传统化石燃料的日益枯竭,迫切需要开发可持续的清洁能源和能量储存装置。锂离子电池和超级电容器等新型电化学储能器件在诸多领域具有广泛的应用。超级电容器具有较高的功率密度、较快的充放电速度、较长的循环寿命和较宽的工作温度范围等特点;锂离子电池具有较高的工作电压和较大的能量密度等特点,但充放电时间较长。因此,超级电容器和锂离子电池在一定程度上可以互补。多孔碳材料由于具有复杂的孔道结构、良好的导电性和可
中碳合金高强钢中回火马氏体能够提供很好的强度和韧性匹配,而马氏体钢低温回火过程中析出的过渡碳化物在提升钢的强度和韧性上起着很大的作用。关于低温回火的研究很多,但是低温回火过程中碳偏聚阶段(从马氏体中碳的扩散到碳化物的析出阶段)特别是马氏体中碳固溶度的变化仍未研究清楚。本课题重点阐述了一种新的研究方法——热电功(Thermoelectric Power,简称TEP),结合金相(Optical Mic
在交通修补作业、路面切缝作业、滑模施工作业和爆破施工等作业中,新浇筑混凝土有可能受到周围环境的振动干扰,扰动使其水化反应受到影响,内部微裂纹增加,引起力学性能与耐久性能下降。同时,混凝土材料属于准脆性材料,存在尺寸效应,而目前对混凝土受扰动的相关研究多是基于相同的试件尺寸,未考虑到尺寸的影响。基于此,为研究扰动对混凝土性能的影响程度和试件尺寸之间存在的关系,本文以试验研究和理论分析相结合的方法,选
计数数据广泛存在于我们的生活中,是一种非常普遍的数据类型,在医学、金融、精算、工业、旅游等众多领域都存在着大量的计数数据。泊松回归模型是用来处理计数数据最常用的模型,然而在实际应用中通常会遇到零过多的计数数据样本,即零膨胀数据。针对这类数据,专家提出了零膨胀泊松回归模型,但是在实际建立零膨胀泊松回归模型时常常会遇到以下两种情形:协变量有时不是全部被观测到的,可能存在缺失值的情形;同时多个高维协变量
生物材料的铁电性是生物与物理领域的结合,在生物传感、疾病诊断和治疗方面具有巨大潜力。从20世纪50年代Fukada发现木材中的压电特性开始,生物材料的铁电性开始受到关注。随着现代实验技术的进步,发现了诸多生物材料具有压铁电性压,如骨骼、主动脉壁、指甲、牙齿、贝壳和肽纳米管等。然而生物材料结构复杂使得其铁电转换的一般原理还缺乏研究。甘氨酸是最简单的氨基酸,也是构成生物材料的基本单元,因此对甘氨酸铁电
超级电容器由于具有高功率密度、良好的倍率性能和循环稳定性以及环境友好型等优势成为电动汽车理想的辅助电源之一。电极材料作为超级电容器最重要的组成部分,其性质对超级电容器的综合性能起到决定性的作用,因此,制备高性能的电极材料是提高超级电容器性能的重要手段。在各类电极材料体系中,能够发生可逆氧化还原反应的法拉第电极材料由于具有高的理论比容量,逐渐被应用于超级电容器中。本论文首先简要介绍了超级电容器的发展
为满足迫切的能源需求,研发环保无污染的储能设备和先进的能量转换装置来替代传统资源成为近年来科研工作者的工作重点。超级电容器(SCs),作为一种新型储能装置,因其出色的特性(如高容量,快速充电/放电,超长寿命和安全性)而备受国际关注。为提高SCs的电化学性能,对电极材料的探索成为研究工作的重要组成部分。石墨烯因为自身的优异性能,成为一种理想的电极材料。目前,由于石墨烯大规模商业化应用还面临很多制约因
在网络信息技术已非常成熟的今天,每个人都能通过网络对时事政治,文学艺术,历史纪实等方面,随时随地的发表自己见解和看法。这就带来了隐患,因为并不是每个人都能遵守国家制