论文部分内容阅读
近几年,协同控制被广泛应用于工程实践领域,其中的多智能体最优一致性控制成为了当下重要研究课题。设计最优一致性控制协议并使得多个智能体在该协议下状态趋于一致是研究的关键。由于多个智能体所构成的分布式系统中通信网络结构复杂度的加深,现有理论研究中主要存在以下两点不足。第一,传统的动态规划方法在求解优化方程时会出现维数灾问题,哈密顿-雅可比-贝尔曼方程的解析解也难以求出;第二,在现有的多智能体系统一致性研究中,对于信号的采样和更新均是以时间驱动下的周期采样方式进行的,造成了网络资源利用率下降。为了弥补以上两方面的不足,本文针对几种不同的多智能体系统,将事件触发机制、动态规划与强化学习相结合,设计了事件触发自适应动态规划方法来对其最优一致性控制进行研究。本文主要研究内容如下:(1)针对含输入约束的多智能体系统,设计了事件触发动作依赖启发式动态规划方法,研究了该系统的最优一致性控制问题。本方法为了克服饱和非线性的影响,在设计系统的控制器时引入了非二次型函数。通过动作依赖启发式动态规划结构中的执行网络和评价网络对最优控制策略进行学习,提出的事件触发条件确定了神经网络的权重更新时刻。仿真结果表明在所提方法下系统稳定,并且多智能体的状态趋于一致,同时也节约了通信网络资源。(2)针对含时变输入时滞的多智能体系统,设计了事件触发启发式动态规划方法,研究了该系统的最优一致性控制问题。本方法通过离散化模型将原系统转换为不含时变输入时滞项的系统,并证明了转换前后系统性能指标函数等价。设计了事件触发条件保证启发式动态规划结构中的模型网络、执行网络和评价网络仅在事件被触发时更新。最后仿真结果表明本方法能够保证多智能体的状态具有一致性,并且通过与时间驱动下的方法进行对比可知,本文所设计的方法在节约网络资源的同时还能够确保含时变输入时滞的多智能体系统获得更好的性能。(3)针对含输入扰动的多智能体系统,设计了事件触发单网络自适应动态规划方法,研究了该系统的最优一致性控制问题。本方法在设计控制器时,将耦合增益与系统代价函数的解析解相乘,构造出对抗扰动项的控制策略。再将输入扰动项由一个神经网络模型来替代,与执行网络共同调节、彼此制约,得出的最优控制策略能够在输入扰动最大的前提下使代价函数最小。评价-执行-扰动网络共享评价网络的权值估计法则,其更新时刻由事件触发条件决定,合理避免了网络学习中不必要的计算。仿真证明本方法既能够满足系统的预期结果,又能减少通信过程中信息资源的浪费。