一类非线性系统的自强化学习自抗扰控制研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:tiger_0003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
未知非线性系统的控制一直以来都是控制领域内的重要课题,由于系统动态未知,许多需要机理模型的控制算法都难以实施,而强化学习方法由于能够在未知的环境中通过与环境的交互自主学习,找到近似最优控制策略且不需要系统结构信息等先验知识,使其成为未知非线性系统控制的理想算法。近些年来,强化学习已在这一领域取得诸多成果,然而,现实中的非线性系统往往受到各种扰动的影响,而强化学习的抗扰能力却不够强大,在大扰动下系统输出往往会大幅偏离设定值,系统性能严重衰退。针对这一问题,本文研究了如何在具有强非仿射特性的未知非线性纯反馈系统控制中提高强化学习的控制精度和抗扰能力。由于传统强化学习算法的动作和状态都是在有限集中,因而在非线性系统控制中应用最多的是的连续强化学习算法,也就是动作-评价网络结构的强化学习。在应用中,该类算法存在这样的一些问题:1.对扰动的抑制能力十分有限。随着扰动逐渐增大,控制效果急剧衰退,直至发散。2.当参考轨迹连续变化时,尤其是变化轨迹的弯曲程度较大时,追踪误差会变得很大。针对强化学习在未知非线性系统控制中存在的问题,本文首先建立了一套动作-评价网络结构的连续强化学习算法,它采用了一个特别的性能指标函数以避免使用系统动态函数,然后做了如下的改进:1.为了提高控制系统追踪连续轨迹的能力,尤其是在参考轨迹曲度较大时的控制效果。我们设计了一个与参考轨迹有关的因子,利用它动态地调整执行器网络的权重更新速率,使得系统在参考轨迹曲度变大时能更加及时地调整控制策略。2.为了提高控制系统的抗扰能力,利用扩张状态观测器将未知的外部扰动和内部参数摄动等效为一个总扰动,将其应用在控制律中,抵消内外扰动的影响,削弱系统的不确定性,帮助强化学习提高其抑制扰动能力。3.最后,我们将强化学习算法与线性自抗扰相结合,用自抗扰控制器代替传统的神经网络执行器,调整了控制器的权值更新方式,大幅提高了系统的抗扰能力和控制精度。同时,待调参数数目减少,大大调高了算法的训练速度。为了验证改进强化学习算法的有效性,将它们应用在未知非线性纯反馈系统的追踪控制上,并给出基于扩张状态观测器的强化学习算法(reinforcement learning-extended state observer,RL-ESO,基于改进 1 和 2)和基于线性自抗扰的强化学习算法(reinforcement learning-active disturbance rejection control,RL-ADRC,基于改进 3)的原理与设计流程。在纯反馈系统追踪控制的实验中,控制器仅获得系统的输出和控制输入等信息,而无需其他结构信息。结果表明,与原算法相比,RL-ESO和RL-ADRC都有更强的抗扰能力和控制精度,后者还具有更快的训练速度。
其他文献
伴随我国社会经济不断发展,会计也在不断发生改变,传统会计已经很难适应当下时代发展以及社会需求,经过不断改革和实践,会计电算化已经被我国广泛应用,但是在实际应用中,还存
通过GeoGebra平台制作统计案例中不同函数模型拟合效果图及残差图等进行比较分析,为学生创设一个乐学的场域,激发学生学习的积极性.
<正>防治新型冠状病毒感染的肺炎,老年人应该怎么办?日前,全国老龄工作委员会办公室提出倡议:1.不轻视、不恐慌,应科学防控,做好自身健康的第一责任人。2.尽量减少外出,避免
高强度聚焦超声是将低能量的超声汇集在靶区瞬间产生高温,通过温热效应、空化效应、机械效应等机制杀死肿瘤,使肿瘤发生凝固性坏死,其对周围组织损伤较小的"无创"性尤其适合于
2010年"莫里逊诉澳洲国民银行案"迫使美国律师开始寻求将与美国关联度不大的证券集团诉讼案件转移至欧盟境内的荷兰法院审理,同时美国律师及律所也日益寻求与金融机构合作以拓
2017年1月7日,西门子与金宇生物技术股份有限公司(金宇生物)签署战略合作协议,利用西门子先进数字化企业解决方案帮助金宇生物建设面向"工业4.0"的智能化产业园区,打造国际一流的
迄今为止,对于涉外民事诉讼期间,学界少有论及。本文就审限豁免、审限之规制模式及上诉期间、答辩期间等问题进行了论述,认为涉外民事诉讼的审限制度有待进一步完善,且“阶段
选聘优秀大学生毕业生到村任职,是建设社会主义新农村的重大战略举措。本文针对大学生“村官”实践工作中存在的突出问题,从更新观念、提高素质、实践锻炼等方面入手,提出构建高
<正>据日本共同社消息,日本农林水产省15日宣布,截至14日"猪流行性腹泻"疫情已扩大至29个道县,造成至少69607头猪死亡。截止4月7日,有21个县发生疫情,疫情在10~14日期间蔓延