论文部分内容阅读
随着信息时代的到来,产生了海量的数据,这些大量数据的背后隐藏着许多人们所需要的信息和知识,人们迫切需要将这些数据转换成有用的信息和知识。数据挖掘就是随着人们的这一需要应运而生的。虽然对数据挖掘技术的研究已经很成熟,但随着RFID、Sensor等EDGE(Electronic Data Gathering Equipment)的广泛应用,出现了大量的事件流数据。传统的数据挖掘技术往往针对静态数据进行处理,对这种事件流数据不适用。因此对事件流上的数据进行挖掘处理获得了广泛的应用。频繁情节挖掘是事件流挖掘领域中的重要方面。目前对频繁情节挖掘的研究没有考虑事件序列当中各个事件类型的重要性(权重),即认为所有的情节都有相同的权重。但是在现实环境中,事件序列中不同的情节具有不同的权重,不同的情节具有不同的效用值。这样以前的频繁情节的挖掘方法都不能直接用来挖掘高效用的情节。为此,提出了在事件序列上进行高效用情节挖掘的算法。首先,本文提出了一种度量情节效用值的模型,用情节发生的次数乘以情节本身的权重。这样就避免了以前单纯用次数来判断情节是否频繁的缺点,即挖掘出的情节往往不是非常重要的情节。在这样的模型下挖掘出的高实用性、高效用的情节在实际的某些应用当中更有实际意义。其次,以前在没有考虑权重进行频繁情节挖掘时,情节都具有向下封闭的特性,但是现在由于考虑了情节的效用值,原来向下封闭的特性就不再满足,即如果子情节不满足阈值条件,但它的父情节也有可能是满足阈值条件的。所以不满足阈值条件的子情节不能直接删除,这样一来,就增加了算法的搜索空间。为此,本文提出了两种削减策略,能有效地削减算法的搜索空间。最后,本文在此基础上提出了一种基于前缀投影的高效用情节挖掘算法。通过实验可以发现,本文所提出的高效用情节挖掘算法可以有效地挖掘出当前窗口内用户感兴趣的情节。