论文部分内容阅读
随着数据挖掘技术的发展,各类信息和数据呈现井喷式增长,数据本身蕴含的巨大价值使各行各业迎来机遇的同时也面临更大挑战。对数据价值不断探索和应用的过程中兴起了一系列研究热点。时间序列预测研究作为其中的重点问题近年来成为数据驱动研究的重要研究方向。时间序列预测通过对数据进行处理、分析与建模,挖掘数据内部结构特征,寻找事物的发展规律和变化趋势,为经济社会中的决策分析与政策制定提供合理有效的理论依据。然而,经典时间序列预测模型往往具有严格的前提假设并且对数据质量要求较高,在对不完整、不准确和模糊性的数据或者数据量缺乏的小样本数据建模时,传统的预测模型在应用上具有较大局限性。复杂的数据类型和不断发展的应用场景对预测模型性能提出了更高的要求,因此,构建适用于不同数据类型的预测模型具有重要意义。在此研究背景下,本文尝试分别构建适用于单维大样本数据、单维小样本数据以及多维样本数据的模糊时间序列预测模型。根据不同的数据特征,设计多种数据模糊化方法,改进模糊关系建立方式,并将构建的模型应用于社会经济等不同方面,力求帮助管理者和经营者及时了解市场动态,为他们提供决策和计划的参考依据,维持市场的相对平衡与良性发展。与传统时间序列预测模型相比,模糊时间序列预测模型以处理模糊集为主要特征,该特征使其在对模糊性和不确定性数据建模时具有显著优势。此外,模糊时间序列建模不需要严格的前提假设以及大量的训练样本,该特性针对性地弥补了传统时间序列预测模型中较为突出的局限性。本文共分为六个章节:第一章是本文的研究起点,包括研究背景、选题依据、研究内容、研究意义以及创新与不足之处;第二章总结了研究的理论和文献基础。理论方面,阐述了模糊时间序列的相关理论知识和建模过程,并介绍了预测模型性能的评估体系。文献方面,分别梳理并评述了经典时间序列预测和模糊时间序列预测的相关研究;第三章至第五章是研究的主体部分,根据不同的数据类型,构建了基于不同数据模糊化和模糊关系建立方式的模糊时间序列预测模型。针对单维大样本数据,采用多目标优化算法和核模糊c均值聚类的论域划分方式实现数据模糊化。对于单维小样本数据,由于样本量的限制,采用需要大量数据进行迭代寻优的多目标优化或聚类算法显然不合理。因此,针对单维小样本数据,采用基于信息优化技术和信息粒度的论域划分方式,基于数据的分布特征,充分挖掘样本潜在信息,提高模型对数据的识别能力,实现数据模糊化。在模糊关系的建立上,对于单维数据,采用模糊逻辑关系矩阵建立模糊关系;对于多维数据,构建了基于神经网络的多变量模糊关系。为了验证本文构建的模糊时间序列预测模型在不同应用场景下的有效性和优越性,本文根据不同的数据特征类型,将不同的模糊时间序列预测模型分别应用于不同的实际场景中。应用场景的选取具有一定的代表性和典型性,风速数据和空气质量数据采样间隔短,样本量大;旅游需求和能源结构数据以一年为采样间隔,数据量较小;太阳辐射数据季节性较强,受到各种气象因素的影响,在预测时需考虑更多外部因素。因此,根据不同的应用场景和数据特征,运用单维大样本下模糊时间序列预测模型预测风速和空气质量指数;运用单维小样本下模糊时间序列预测模型预测旅游需求和能源消费结构;运用多维样本下模糊时间序列预测模型预测太阳辐射。通过实验分析和统计检验,验证了所构建的模糊时间序列预测模型在多种应用场景下均具有较好有效性和优越性;第六章总结本文的主要研究结论,并对未来的研究进行展望。基于研究内容,得出的具体观点和主要结论包括如下几个方面:首先,不同的模糊时间序列预测模型适用于不同类型的数据。本文构建的基于多目标优化和核模糊c均值聚类算法的模糊时间序列预测模型适用于具有不确定性、随机性及模糊性的单维大样本时间序列的预测。在样本数据缺乏的情况下,构建的基于信息优化技术和信息粒度的模糊时间序列预测模型适用于单维小样本时间序列的预测。此外,当数据受外部因素影响较大时,多变量模糊时间序列预测模型在多维样本预测中更为适用。构建的模型在不同特征时间序列中的应用体现了其优越的性能,拓宽了模糊时间序列的应用场景,也为时间序列预测提供了新的研究思路。其次,在模糊时间序列预测建模过程中选择合适的数据模糊化和模糊关系建立方式对提升模型预测性能具有重要作用。论域划分是数据模糊化的基础。在单维大样本数据中,为了更有效地实现数据模糊化,本文采用多目标优化算法和聚类算法划分论域。基于多目标优化的论域划分方式,充分利用历史数据的信息,选取预测精度和稳定性为优化目标,通过迭代训练可以获得最佳的论域划分结果。基于核模糊c均值聚类算法的区间划分方式能够更好地利用样本类别信息,进一步借助合理的目标函数获得聚类中心和隶属度,从而优化模糊时间序列中的论域划分方式和隶属度确定。在单维小样本中,为了充分挖掘有限样本中的信息,采用基于信息优化技术和信息粒度的论域划分方式,能够显著地提高模糊化过程的识别能力和模型的预测精度。在单维样本下,采用模糊逻辑关系矩阵建立模糊关系;在多维样本下,基于人工神经网络构建了多输入模糊关系,实现了多维样本数据下模糊关系的建立。实验结果验证了本文针对不同数据类型设计的数据模糊化和模糊关系建立方式的有效性和优越性。最后,在模糊时间序列建模中引入数据预处理和优化算法可以有效改善预测模型的性能。在单维大样本数据中,采用数据分解与集成策略,降低数据中的噪声影响,提高了模型的识别能力。在单维小样本数据中,通过计算原始数据的变化率,消除数据中的趋势性,提高模型的泛化性和普适性。在多维样本数据中,本文采用去相关最大化方法与Relief-F算法相结合的两阶段特征选择算法从多维变量中剔除冗余变量,选择有效变量作为模型输入,从而提高模型的训练效率。对于季节性较强的数据,本文采用季节指数剔除序列中季节因素的影响。实验结果表明,与未剔除季节因素的模型相比,剔除季节性能够显著提高整体模型的预测精度。此外,在模糊时间序列预测模型的构建过程中,本文采用先进的优化算法对模型中参数进行优化,进一步提高了预测模型的性能。本文的主要创新点如下:(1)分别构建了适用于单维大样本、单维小样本以及多维样本数据的模糊时间序列预测模型,扩展了模糊时间序列建模的应用范围,丰富了模糊时间序列的应用前景。(2)对于不同的数据类型,有针对性地构建不同的数据模糊化和模糊关系建立方式,丰富了模糊时间序列建模的理论研究。(3)将数据预处理和优化算法融入模糊时间序列建模中,构建了集预处理、优化和预测于一体的混合预测模型,提高了模糊时间序列预测模型的性能。针对不同的时间序列,采用了多种数据预处理和优化技术,提高模糊关系建立的效率和准确性,进一步改善了模型的预测性能。(4)在多维样本数据建模中构建了基于去相关最大化方法和Relief-F算法的两阶段特征选择算法,从众多变量中剔除冗余变量,选择有效变量作为模型输入,提高了模型整体运行效率和性能。本文不足之处如下:首先,虽然模糊时间序列预测模型研究具有较强的泛化性和零活性,但本文在模型应用方面只选取了现阶段多个热点领域作为研究对象,相关模型在其他领域的应用效果有待在后续的研究中进一步分析验证。其次,优化算法的引入虽然可以进一步提高预测模型的预测精度和稳定性,但也会在一定程度上增加运算的复杂度和计算时间,需要对算法进一步改进,提高其运行效率。最后,由于现阶段预测算法的发展限制,在本文建立的一系列模糊时间序列预测模型中,存在一些需要依靠经验预先设定的模型超参数,这在一定程度上影响模型在不同运行环境下结果的一致性。