模型预测控制引导的强化学习控制方案及应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:jovewu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化工过程控制技术是维持化工生产过程平稳运行、实现经济效益最大化的重要保障。随着化工生产规模的日益扩大、生产方式的复杂化以及产品的精细化和多元化,传统的化工过程控制技术面临着建模难、优化难、计算效率低等问题。对此,基于人工智能的控制技术被认为是一种有潜力的解决方案。因此,针对化工过程发展智能控制技术具有重要的意义。强化学习是一种以优化原理为基础的人工智能技术,它通过交互进行学习,从而实现对复杂系统的控制与决策。近年来,随着人工智能技术与计算机并行计算能力的发展,结合了深度神经网络的强化学习技术已经在围棋领域战胜了顶级专家,同时在一些电子游戏中也达到了人类水平,因此获得了广泛的关注。科研人员也希望将强化学习的研究与应用延伸到化工过程控制领域,并认为强化学习将对过程控制领域,或更宽泛的过程操作领域产生重要的影响。然而,针对实际化工过程,现有的大多数强化学习算法在应用时仍然具有挑战性,本文关注其中三个具有挑战性的研究问题是:第一,算法采样(训练)效率低,导致学习过程资源开销大,无法实际在线应用;第二,难以处理化工过程中不可避免的大时滞问题;第三,缺乏对先验知识的利用,造成训练时间长,鲁棒性差的问题。针对现有强化学习算法采样效率低以及难以处理大时滞特性的问题,本论文首先提出了一种模型预测控制引导的强化学习控制方案。该方案一方面利用了模型预测控制来引导强化学习,以提高学习过程的采样效率。另一方面利用预测模型来提升强化学习处理大时滞问题能力。通过在大时滞线性系统上的仿真实验,验证了控制方案具有较高的采样效率,使得强化学习的训练时间缩短,同时获得了优于模型预测控制方案以及基准强化学习控制方案的控制性能。针对强化学习算法缺乏先验知识带来的问题,提出一种基于模型预测控制的模仿学习预训练策略,该方法通过离线的方式学习模型预测控制生成的历史数据,实现对先验知识的利用,通过线性系统的仿真实验证明了该方案能够为强化学习提供可接受的初始控制器,因此减少了强化学习探索的幅度且加速了强化学习的训练过程。为了验证上述方案的实用性,在典型的化工系统——连续搅拌反应釜上进行了控制方案的仿真实验。在其温度控制任务中,验证了本文提出的模型预测控制引导的强化学习控制方案的可行性与先进性。针对更为复杂的浓度控制任务,验证了模仿学习预训练策略的有效性,并通过引入事后经验回放方法,进一步提升了控制方案的易用性。本文提出的方案有望对强化学习技术应用于实际化工工业过程的研究与实践提供有益借鉴。
其他文献
石油污染土壤有机质(soil organic matter,简称SOM)通常和石油烃污染物(total petroleum hydrocarbon,简称TPH)紧密结合,采用改性芬顿预氧化时,SOM并不是去除的对象,但SOM会与TPH竞争消耗羟基自由基(·OH)干扰TPH的去除,且SOM含量高时,消耗的羟基自由基数量巨大(约30%~80%),仅残留少量的羟基自由基氧化TPH,致使TPH氧化率较低。
随着当前农村地区经济的发展,我国农村的生活污水排放量不断增加,对其周边生态环境造成巨大的威胁,必须寻找适宜的处理方式进行应对。在我国,大部分的农村地区并不适宜采用集中式污水处理技术,考虑到农村及偏远地区的经济条件、地理位置和管理难度,采用分散式污水处理技术进行因地制宜的处理将是农村生活污水处理的发展趋势。新兴的动态膜生物反应器(DMBR)在保留了传统膜生物反应器(MBR)效果好、占地少和产泥少等优
随着现代无线通信系统的不断发展,为了最大化利用频谱资源以应对持续增长的用户需求,一系列具有高频谱效率的调制技术如WCDMA、OFDM被广泛的应用。为了使移动网络运营商可以充分利用所分配到的不连续的频谱资源,使用能够同时处理不同标准和不同频段信号的发射机已经成为一种趋势。采用一个功率放大器同时放大多个频段的信号,其优点是能够显著地减少电路元件的数量和发射机的功耗。射频功放作为基站发射系统的核心器件,
随着风电技术的不断改进完善,风能已成为最具开发前景的新能源发电方式之一,海上风电建设具有的风能储量大、运输成本低等优点,使得海上风电建设越来越受到人们的关注。而风具有不稳定性,不同区域的风能时空特征具有较大差异,因此,风能资源的分析与评估对海上风电场的建设开发具有重要意义。随着近年来遥感技术的发展,合成孔径雷达(Synthetic Aperture Radar,SAR)技术为测量风能资源提供了新的
近代江南造园文人气变弱世俗性变强,理想转向世俗,园林发展走向逐渐转变为使用性优先的以儒商家族为主的功能型园林。他们尊重传统的同时具备开放性视野和灵活直接的创新性。将传统园林的形与商业运营的神融入园宅的生活系统。在造园形式,半开放性等等方面有时代性转变。笔者试图将儒商造园现象还原至动态发展的近代历史中,以园主人的生活方式为主要切入点,通过实地专题调研收集近代江南园林的相关资料,相对完整地调查儒商这个
重庆市是集大城市、大农村、大山区于一体的复合型城市,又是传统老工业基地,工业污染、农业污染和生活污染严重威胁土壤环境安全,加之重庆市多山区、多喀斯特地貌,土壤环境一旦被破坏,治理修复难度极大。近年来,重庆市逐渐重视土壤污染防治工作,并认识到土壤污染防治立法的重要性,但立法进展相对缓慢,立法效果不尽如人意。本文首先从土壤污染与土壤污染防治的定义出发,分析重庆市土壤污染防治地方立法的必要性与可行性。然
浑,存在于中国传统文化和绘画中,是文人心中内在的理想状态,也是文人绘画中体现出有关生命真实问题的概念和一种生命状态。雄浑是二十四诗品中的第一品,表现为宇宙间人和天浑然不分的境界状态,通过“返虚入浑,积健为雄”的创作方式提升诗品中的品级。古代人绘画追求浑然元真的气象,当讨论“浑”的美学范畴时便是关乎生命真实的问题,属于自我,天地,社会三层级的理解。是中国特有的深远的哲学内核。古代山水绘画将浑的美学价
工业机器人因具有自由度高、操控灵活、多功能等优点,已逐步成为机械制造行业的重要组成部分。然而,现有工业机器人普遍存在空间运动精度低的问题,导致机器人无法推广至高精度加工制造应用领域。如何有效提高机器人空间定位精度,已成为国内、外相关领域学者研究的重要课题。因此,本论文提出一种基于自制拓展R-test测量装置检测的新型标定方法。其主要研究内容有:1.以EPSON C4 A901S型工业机器人为研究对
作为GaN基发光器件最常用的有源区结构,InGaN/GaN多量子阱结构一直以来都倍受科研工作者们的关注。为了提高InGaN/GaN多量子阱发光器件的性能,科研工作者们进行了大量的研究工作,至今比较集中在材料生长方面,包括:通过改变In组分减少In团簇现象的发生、通过改变阱宽和垒宽改善晶格质量、通过改变量子阱的对数增大有源区增益等。本文设计了不同有源区结构的InGaN/GaN多量子阱,进行了外延片和
肉毒毒素(botulinumneurotoxin,BoNT)是一类由革兰氏阳性厌氧的肉毒梭菌在适宜条件下分泌的蛋白类神经毒素,是已知毒性最强的细菌毒素之一,按照血清型的不同分为A-G七种,其中A型肉毒毒素(BoNT/A)毒性最强也最为常见。至今未有化学类药物可以有效治疗肉毒毒素中毒,现今临床上常采用马血清进行治疗,但马血清容易污染、制备周期长、产率不稳定,而且作为异源物质容易引发超敏反应,不能成为