论文部分内容阅读
随着信息技术的发展,经济管理领域中产生并存储着大量的时间序列数据,运用数据挖掘算法可以挖掘出数据中潜在的、有价值的知识和信息以支持管理和决策活动。但这些时间序列数据通常都具有显著的高维性特征,若对其直接运用数据挖掘算法,会造成过高的计算复杂度,且数据挖掘结果也会受到影响。粒计算是一种模拟人类求解问题思维和解决大数据复杂任务的新方法,该理论的主要思想是将复杂问题抽象、划分转化为若干较为简单的问题(即粒化),从而有助于更好的分析和解决问题。本文将粒计算的粒化思想引入时间序列分析中,通过对时间序列进行信息粒化,将原始高维时间序列粒化为低维粒时间序列,构造的信息粒能够刻画和反映原始时间序列数据的结构特征,从而实现高效降维,为后续的数据挖掘工作奠定基础。本文针对时间序列的信息粒化问题,从时间轴和论域两个方面提出了三种不同的时间序列信息粒化方法:基于波动点的时间序列时间轴信息粒化方法、基于云模型的时间序列时间轴信息粒化方法和基于论域信息粒化的模糊时间序列预测方法,并应用于股票时间序列数据进行聚类和预测分析,为股票的投资选股问题及涨跌趋势的判断问题提供决策建议。主要研究内容和创新性研究成果如下:(1)在时间序列的时间轴方面,针对低频时间序列的结构特征,提出了基于波动点的时间序列信息粒化方法及粒时间序列相似性度量方法。首先,提出了基于波动点的时间序列信息粒化方法,通过识别波动点对原始时间序列进行信息粒划分,进而使用线性函数对划分后的信息粒进行描述得到粒时间序列,解决了传统时间序列降维方法中对于时间轴的硬划分问题,在降维的同时能更有效地提取时间序列的结构特征。其次,针对粒时间序列提出了相应的相似性度量方法。最后,在标准数据集上进行了聚类实验,实验结果表明运用所提出的信息粒化方法和相似性度量方法能够提高聚类结果的准确性;并在科创板股票数据集上进行了算法的实际应用研究,研究结果可以给投资者在科创板股票市场选股时提供参考。(2)在时间序列的时间轴方面,针对高频时间序列的结构特征,提出了基于云模型的时间序列信息粒化方法及粒时间序列相似性度量方法。首先,提出了基于云模型的时间序列信息粒化方法,在不需要事先指定信息粒划分个数的情况下,可以自适应地将时间序列粒化表示为若干个正态云,该方法针对高频时间序列具有更好的降维效果。其次,针对粒化后的云模型序列提出了相应的相似性度量方法。最后,在具有高频特征的标准数据集上进行了聚类实验,实验结果表明运用所提出的信息粒化方法和相似性度量方法能够提高聚类结果的准确性;并在具有高频震荡特征的沪深A股股票数据集上进行了算法的实际应用研究,研究结果可以给投资者在A股市场上选股投资时提供参考。(3)在时间序列的论域方面,提出了基于模糊C均值聚类和信息粒化的时间序列论域划分方法,并基于论域划分结果提出了时间序列预测方法。首先,运用模糊C均值聚类方法对时间序列的论域进行初始划分,然后提出了基于信息粒化的论域划分优化算法,该方法将聚类算法和信息粒化方法相结合来划分论域,提高了样本数据划分的准确性和可解释性。其次,针对时间序列信息粒化后的论域划分结果,给出了时间序列的模糊预测方法,该方法将精确的时间序列数据转化为符合人类认知形态的语义值构成的时间序列,通过对这些语义值构建模糊逻辑关系来描述时间序列的动态演变过程,得到其模糊变化规则并进行预测,提高了预测结果的可理解性。最后,在台湾加权股价指数(TAIEX)数据集上进行了预测实验,实验结果表明运用所提出的时间序列信息粒化方法进行时间序列预测能够提高预测结果的准确性;并在上海证券综合指数(SHCI)数据集上进行了算法的实际应用研究,研究结果可以帮助投资者了解未来股票市场的走向,为其调整投资策略时提供参考。