论文部分内容阅读
随着信息时代的到来,人们需要分析处理越来越多的数据,而这些海量数据的背后隐藏着大量的人们所需要的规则和知识,数据挖掘就是随着人们的这一需要应运而生的。虽然最近几十年对数据挖掘技术的研究已经很成熟,但随着RFID. Sensor等EDGE (Electronic Data Gathering Equipment)设备的广泛应用,出现了大量的事件流数据。传统的数据挖掘技术往往针对静态数据进行处理,对这种事件流数据不适用。频繁情节挖掘是事件流挖掘领域中的重要方面。目前对频繁情节挖掘的研究主要针对静态数据和点事件类型的数据,但是在真实情况下,对事件流的处理往往比静态数据更有意义,而且事件的发生很多是带有时间间隔的,不可能完全按照点事件类型进行处理。本文针对这些问题,提出了在具有时间间隔的事件流上进行频繁情节挖掘的算法,可以有效地把事件流和时间间隔事件结合起来解决。首先,对于时间间隔事件,提出了基于关系元组的表示方法,它可以有效的区分出滑动窗口内所有的频繁情节,避免了传统的对有时间间隔事件处理时,丢失情节的情况。但是基于关系元组的表示方法还存在一些问题,所以在此基础上本文又提出了基于矩阵的表达方法,它可以使用户清楚的了解所挖掘出的频繁情节的内部关系。其次,因为我们日常生活中接触的事件类型往往是有间隔的,即事件需要持续一段时间后才结束,而现阶段的挖掘方法都不能处理这种间隔事件。所以本文提出了一种关系线索树和B+树相结合的方法,它可以对事件流中的间隔事件进行频繁情节挖掘,可以构建并有效地存储事件流中滑动窗口内的所有情节,也避免了对源数据的多次扫描。最后,本文在此基础上提出了一种基于线性链表的深度优先算法,它采用深度优先构建线性链表的方法,针对最小发生情节,采用一种最小误差系数的修剪方法对滑动窗口内的情节进行修剪,在一定程度上减少了时间和空间代价的消耗。通过实验可以发现,本文所提出的针对具有时间间隔的事件流上的频繁情节挖掘算法可以很快地对新到来的事件进行处理,并挖掘出滑动窗口内的所有频繁情节。