论文部分内容阅读
本文主要研究了电梯群控系统的自适应多目标优化方法。由于电梯群控系统重要的实际意义,其自适应多目标优化问题得到了广泛关注。电梯群控系统是一个典型的多目标系统,为探索解决问题的有效方法,论文首先系统地总结了电梯群控系统多目标优化方法。在此基础上,建立了电梯群控系统的自适应多目标优化结构,并且对结构中各组成模块的功能进行了介绍,同时详细阐述了自适应多目标优化原理。在自适应多目标优化过程中,优化评价函数参数是解决整个问题的关键。论文以马尔可夫决策过程为背景,模型化评价函数参数优化问题,根据所研究问题的特点定义模型各要素。并且通过对自适应优化方法的总结、分析与比较,提出基于强化学习的评价函数参数优化方法,即利用强化学习的SARSA(λ)值迭代算法和策略梯度算法实现算法的迭代更新,并且将两者分别与Tile coding函数逼近相结合。然后利用随机过程、矩阵论以及不动点理论,分析证明相关算法收敛性。针对所提出的评价函数参数优化方法存在收敛速度慢、训练时间长等问题,将隐偏向信息学习与强化学习相结合,进一步提出了改进的评价函数参数优化方法。仿真实验表明,改进方法的收敛速度明显提高,同时缩短了学习时间。设计结合自适应多目标优化单元的电梯群控虚拟仿真环境的结构,定义各部分功能函数之间的接口。结合电梯群控虚拟仿真环境进行仿真,生成了两种不同的交通流用于算法的仿真与训练,首先分析比较两种评价函数参数优化方法在解决电梯群控系统的自适应多目标优化问题中的学习能力,然后通过与其他方法进行比较,仿真结果不仅体现了所研究的自适应多目标调度优化方法对于不同的交通模式具有较强的适应性,而且获得了综合性能更好的优化结果。