论文部分内容阅读
时间序列是一种按照时间顺序排列、随时间迁移不断变化的高维度数据集合,其广泛存在于当今社会的各种行业领域,如金融、医疗、网络、电力等。时间序列具有数据量大、数据维度高且持续积累等天然特性。因此,如何从时间序列数据中高效且有效地发掘隐藏于数据背后的知识和规律是一项极具挑战性的研究课题,吸引着越来越多的研究人员投入其中。基于时间序列的数据挖掘研究主要包括时间序列降维表示、相似性检索、分类、聚类以及异常检测。本文主要就时间序列数据挖掘中异常检测的关键技术展开深入研究,包括降维表示、相似性度量与异常检测三个方面,其主要研究内容以及取得的研究成果可以归纳为以下五个方面:(1)本文提出了一种基于时间序列特征分割的在线分段线性表示方法(Feature-based Online Segmentation,FOS),并将其分段策略应用于时间序列异常检测中。FOS利用时间序列中具有明显趋势特征的趋势转折点以及相应的转折点重要性指数来优化分段点的选取,进而利用优化的分段点进行基于斜率计算的前后双向分段,最终实现时间序列的分段线性表示。在分段线性表示过程中,利用单点误差对FOS的拟合误差进行约束,确保FOS具有较理想的拟合精度,同时基于分段点斜率计算的双向分段确保FOS具有较高的运行效率。对FOS的拟合精度与时间复杂度的理论分析与实验结果表明,该方法可以有效降低时间序列的数据维度,能够保留原始时间序列整体趋势特征,拟合误差较小,同时具有较高的运行效率。(2)为有效利用ψ-DTW距离计算进行时间序列数据挖掘,本文提出了一种高效学习动态时间弯曲最优首尾松弛空间方法(Rapid OPSIS Search Algorithm,ROSS),并提出了相应的异常检测方法。ROSS利用下界距离剪枝和延迟实际距离技术,采用一种基于最近邻分类查找表的策略验证不同参数值下的分类错误率,进而求得具有最低分类错误率的首尾松弛空间值。相较于原始最近邻分类学习方式,ROSS的时间复杂度显著降低。通过与主流DTW相关距离计算方法的对比实验结果分析可知,ROSS显著提升了OPSIS的学习效率,且随着时间序列的数据量和数据长度的增长,学习效率依然能够保持较高水平。(3)本文提出了 一种基于特征符号表示的时间序列异常检测方法(Anomaly Detection based on Feature-based Symbolic Representation,ADFSR)。ADFSR首先利用趋势转折点与转折点重要性指数将时间序列按照基于趋势特征的符号表示方法进行转化,然后,按照表示结果将原始数据转化为包含7项特征值的子序列,随后将7项特征值运用到提出的距离计算方法中,最后结合基于密度的异常检测算法执行异常检测。对ADFSR方法参数、仿真数据以及真实网络流量数据的实验分析表明,该方法具有较强的鲁棒性,验证了算法的有效性与稳定性,同时显著降低了算法的时间复杂度,有效加速异常检测过程。(4)本文提出一种基于多域聚合近似表示(multi-domain Space Piecewise Aggregate Representation,MSPAR)的时间序列异常检测方法MSPAR-AD。该方法不仅密切关注时间序列在幅度域中的显著变化,还考虑时间域中的相应趋势变化。MSPAR-AD首先将时间序列平均划分为非重叠的数据序列,随后将数据序列投影到相应的多域空间中,并根据其自身的幅度域时间特征进行降维表示。最后,基于表示结果,配合提出的距离计算方法,计算对应数据序列的异常得分,进而发现时间序列中的异常序列。通过理论分析MSPAR-AD方法的时间复杂度以及相应实验结果表明,该方法通过基于多域聚合近似表示可有效降低原始数据维度,提高异常检测效率,同时能够显著地区分时间序列中的正常与异常序列,进而有效地检测时间序列中的异常序列。(5)本文利用时间序列降维表示、相似性度量以及异常检测方法,设计实现了基于时序挖掘的网络异常流量检测系统,实现了将学术研究成果应用于生产实践中,促进了科技成果转化。