论文部分内容阅读
时间序列预测是当今社会应用最为广泛的数据驱动建模预测方法之一。早期的经典时间序列预测模型以随机过程和数理统计为理论基础,随着计算机科学、数学、管理科学、统计学、生物工程等学科的发展与交叉应用,机器学习等可计算智能方法得到迅速发展,凭借在参数估计、模型结构等方面的灵活性以及预测性能的优越性,这类方法已经成为当下时间序列预测领域的研究热点。然而,无论是经典时间序列预测模型,还是较为先进的机器学习模型,任何一种方法都有其优势和劣势,都不足以应对所有类型的时间序列数据预测问题,尤其是在大数据时代背景下,互联网、信息技术与人类生活的交融使得数据资源得以快速积累和膨胀,面对如此庞大的信息量,几乎所有模型的结构、参数估计、运行计算、稳定性、适应性等都将受到挑战。基于以上背景,本文在对传统的统计预测模型、机器学习模型、单一模型、组合模型、混合预测模型的梳理和总结基础之上,重点研究基于数据特征驱动时序分解的复杂季节性时间序预测模型构建问题。具体而言,所建立的预测模型具有系统性的理论框架,主要涵盖以下四个方面:第一,预测模型的建立以数据特征驱动为导向。现有的预测模型多注重对方法本身的改进,而较少地以数据特征为出发点进行切入,季节性时间序列数据作为一种独特的数据类型,其波动受到多种潜在特征成分共同驱动,如果能够对序列中的不同成分进行有效的数据特征挖掘与分析,则可以使得所建立的模型更具有针对性、合理性和鲁棒性。第二,针对季节性时间序列的结构性特征,模型构建采用基于分解思想的问题解决思路,目的是降低由于原始序列的高度复杂性所带来的不确定性风险,进而更易于挖掘和分析时间序列的内部规律。第三,以前沿性的可计算智能方法为预测模型的核心要素,就此而言,无论是从预测精度还是从适用性角度的比较,机器学习模型在复杂性时间序列预测方面都要比经典的时间序列模型更为优异。第四,特征选择作为一个重要方向被绝大部分混合预测模型所忽视,现有的混合预测模型多注重方法本身,而鲜有研究开展深入的特征分析过程。综合以上四个方面,本文充分考虑到季节性时间序列的独特波动规律,开展复杂季节性时间序列预测模型研究。本文的研究内容共有六个部分:第一章介绍了研究现状、选题依据、主要研究内容、研究意义、研究创新和不足。第二章对相关的数据特征驱动时序分解及特征辨识方法进行了系统性论述。第三章主要考虑到是季节性时序数据受到不规则波动信息干扰情形,基于数据特征驱动分解的降噪设计、机器学习以及智能优化算法建立了混合预测模型。第四章延续了数据特征驱动分解的视角但区别于降噪的思路,基于分解集成的问题解决思路,构建了集成策略理论框架,提出了系列分解集成模型。第五章拓展和深化了第三章和第四章的研究,但区别于降噪和分解集成的建模思路,基于数据特征驱动分解从特征选择的视角来建立预测模型,并将模型的构建嵌入到了特征选择过程中。第六章对本文的研究进行了总结,并对未来的研究方向进行了展望。基于典型数据集的验证,主要研究工作和创新体现在以下三个方面:首先,现有的单项模型主要存在两方面的缺陷:一是时间序列中的潜在不规则波动成分使得预测模型无法更为有效地捕捉数据的产生机制;二是现有的绝大部分单项模型都存在设定不精确、结构不稳定等问题。针对以上不足,本文利用奇异谱分析、支持向量回归和布谷鸟搜索算法设计了一个季节性时间序列混合预测模型,该模型具有如下两方面的改进:①针对季节性时序数据含有的不规则变动成分,设计了季节性时序数据的降噪流程,该流程能够对数据中存在的潜在特征成分实现可分性分解,进而将不规则波动成分成功分离;②通过引入人工智能算法,避免了传统机器学习方法陷入局部最优的缺陷。其次,基于分解的问题解决思路,第一,对于存在多季节性模态的季节性时间序列,如果能够实现具有特定意义的成分的可分性分解,则可以降低由于多个成分混叠带来的不确定性,根据这一思想,本文提出了一个多季节模态时间序列数据的分解方法,该方法能够充分挖掘数据中的结构性成分,并且分解得到子成分具有较强的可解释性和可分性特点;第二,基于分解建模的思路,为了有针对性地建立子问题的解决方案并整合它们,本文首先根据子成分的波动特征有针对性地建立单项预测模型,然后为了能够有效地整合或集成单项预测结果,构建了线性回归集成策略、非线性回归集成策略、基于智能搜索算法的集成策略的最优化集成权重求解方法,提出了系列分解集成预测模型。最后,反观绝大部分混合模型的建立过程,可以发现主要存在以下两个方面的问题:第一,当仅考虑时间序列数据本身时,预测模型的输入特征选择就只能依赖于原始序列的延迟特征,从而很难深入挖掘序列中的潜在信息;第二,由于整合了不同的方法,绝大部分混合模型面临着计算复杂度高等缺点,而特征选择是一个的复杂搜索过程,进而很难融入混合模型。针对研究中的不足,本文基于数据特征驱动分解,将混合预测模型的建立嵌入到了特征选择过程中:①基于数据特征驱动分解,建立了单变量时间序列情形下的特征空间,该特征空间充分地容纳了季节性时序中的每一潜在成分或模态的有效滞后信息,进而更为有效地挖掘了数据的产生机制和所提供的信息;②为了从特征空间中筛选出最优的特征子集,提出一个新颖的混合特征选择算法,该算法融合了传统Filter和Wrapper法的思想,一方面通过智能搜索算法对Filter法进行了优化改进实现动态全局性特征子集搜索,另一方面通过嵌入机器学习算法实行特征子集评估,从而使得选择过程具有简便、快捷、最优化的优点;③采用奇异谱分析、集成经验模态分解和经验小波变换三种多尺度频域分解方法,选用支持向量回归作为评估特征子集的预测模型,利用布谷鸟搜索算法的全局求解优势,建立了系列季节性时间序列混合预测模型。本文通过典型案例数据集研究验证了所提出的系列模型的理论价值和应用价值,既丰富和补充了现有的时间序列预测方法研究体系,又能够为相关问题的解决提供重要的参考依据。具体而言,首先从数据特征驱动建模切入,基于多尺度分解方法建立了系统性的预测模型构建框架;其次,针对季节性时间序列预测问题,提出了分解降噪的混合预测模型构建思想、基于分解集成的系列混合预测模型构建思路、基于数据特征驱动分解的最优化特征选择混合预测模型的构建思想;最后,本文提出的基于数据特征驱动分解的系列混合预测模型系统性地整合了不同的方法,既能够改善预测的精度、稳健性和泛化能力,又能挖掘季节性时序数据的潜在波动特征。主要有如下两点不足:①模型的构建主要利用了先进的多尺度频域分解技术、机器学习模型和人工智能搜索算法,在未来的研究中,可以考虑更多的分解技术和机器学习方法进行扩展研究。②只考虑一类季节性时序数据,未来的研究可以采用不同采样频率季节性时序数据,并将外生因素纳入建模框架以增强模型的可解释性和推广价值。