论文部分内容阅读
随着经济的快速发展,在工业生产,金融服务,电子商务,卫星遥感,传感器网络等领域中都会产生大量的数据,这些数据往往都带有时间标签,即时间序列流。挖掘某一个领域多个时间序列流的关联关系是其中一个重要的研究方向。由于时间序列流具有海量性、实时性和连续性等特点,其中的数据和知识都会随着时间的推移而发生变化,传统的关联规则挖掘方法难以对其进行有效挖掘。目前已有一些数据流关联规则挖掘的研究,但是很多都是数据流已经符号化了,或者说数据本身已经代表了一种模式,不需要预处理提取模式。针对多元时间序列的关联规则挖掘的深入研究较少,且很多挖掘都是采用等长的时间长度来提取模式,挖掘出来的规则的每个元模式含有相同的时间长度,也没有考虑到新数据中的规则更令人感兴趣的情况。本课题使用滑动窗口来对时间序列数据进行限制,挖掘其中的动态关联规则即规则随滑动窗口的移动动态变化。由于时间序列数据是连续性的,在挖掘前需要对其进行预处理来提取元模式形成事务集,预处理的过程首先对序列进行线性化近似,对线性化后的序列切割使在同一时间段内每个序列只有一条线段也即一种变化模式,然后将相似的线段增量地聚类,为每一类分配一个符号,这样多元时间序列数据就被符号化了,将同一时间段内的符号组成事务集就可以对其进行关联规则挖掘了。本课题关联挖掘的算法同样是基于滑动窗口的。在滑动窗口维护一个全局的SWIU-tree(Incremental Updating tree based on Sliding Window)来存储已经扫描的事务集的概要结构,通过剪枝策略以去掉SWIU-tree中的不频繁模式和过期的模式。同时,对滑动窗口中不同的基本窗口采取计数衰减的策略,减少历史事务的影响。在实际热电厂的数据和股票数据集上通过将已有算法与本课题SWIU-tree算法对比,显示了本课题所提算法的有效性,可以快速准确地挖掘多元时间序列的关联规则。