论文部分内容阅读
为了求解有限时域最优控制问题,自适应动态规划(ADP)算法要求受控系统能一步控制到零.针对不能一步控制到零的非线性系统,提出一种改进的ADP算法,其初始代价函数由任意的有限时间容许序列构造.推导了算法的迭代过程并证明了算法的收敛性.当考虑评价网络的近似误差并满足假设条件时,迭代代价函数将收敛到最优代价函数的有界邻域.仿真例子验证了所提出方法的有效性.