论文部分内容阅读
本文旨在研究针对时间序列数据的模式数据挖掘的理论、方法和实际应用,并针对地震数据的特点研究适合于地震时间序列数据的挖掘算法,寻找隐藏在大量地震前兆观测流数据背后的规律,发现潜在的、有价值的地震预报知识。具体内容包括时间序列数据挖掘中的数据预处理方法、相似性匹配、序列划分方式以及时序模式挖掘算法等四个方面。
在预处理方面,综合多种预处理方法,用统计数据模型增强预测的能力,用数字信号处理方法提取数据的主要特征,并构建地震前兆数据仓库,以实现一个完整的数据挖掘平台。
在时序相似性匹配方面,研究能处理一个或者多个变量的多维时序的相似度度量问题,用基于动态时间变换的模糊比较方法和基于奇异值分解的多变量序列比较方法,达到高效的不精确匹配和具有较好的通用性和灵活性的目的。
在探讨动态时间序列划分方法方面,考虑到挖掘多种长度和层次的时序模式的需要,结合多种划分策略和基本模式,使得对实时流数据的划分达到最优化。
针对历史数据和实时流数据的不同特点,对相应的时序模式挖掘算法进行研究。本文对静态历史数据使用相似相邻向上合并的方法挖掘具有不同长度频繁模式;对实时流数据,在动态实时划分的基础上,使用基于滑动窗口的实时时序模式挖掘算法,采用内存和外存两级式的时序模式存储结构,在时间窗口的基础上寻找最近频繁模式,以提高更新和检索的速度。将隐马尔可夫链的方法用于通过外在特征来分析事物的内在状态转换。
最后,为提高运算速度和处理大数据量的需要对数据挖掘算法进行并行化工作。由于地震前兆数据数据量大而且包含多个变量,本文提出了适用于海量历史数据的并行划分数据策略和算法,该算法能够快速、高效地在集群式高性能计算机上进行处理,这样不仅提高了速度,而且有效地减少了挖掘长序列的巨大时空开销,此外还有对实时流数据模式挖掘的动能划分并行。