论文部分内容阅读
数据挖掘经过十几年的研究,特别是最近几年,一些基本概念和方法趋于清晰,它的研究也向更深入的方向发展。随着信息技术的发展和互联网的兴起,数据量急剧膨胀,而且数据的形式也多种多样。传统的数据挖掘方法往往都集中在对静态数据的挖掘,他们可以高效地在静态数据中挖掘信息和知识,但是他们无法适应在高速的,大量的,实时性很强的数据流,因此数据流挖掘成为最近数据挖掘领域比较热的研究点。
在数据流挖掘领域中,频繁项集的挖掘是基础性的,比较关键的问题。同时,对于挖掘数据流中的频繁项目集的研究也是数据流挖掘应用于实际所必需的基础性研究,有着广泛的应用前景。在这个领域中,传统的研究方法大多关注于在数据流中挖掘全部频繁项集。由于挖掘全部频繁项集存在数据和模式冗余问题,所以对算法的时间和空间效率都具有更大的挑战性。因此,近年来人们开始关注在数据流中挖掘频繁闭项集与最大频繁项集,其中一个典型的工作就是Moment算法。另外,在数据流中挖掘频繁项目集领域,挖掘算法所使用的窗口机制,数据淘汰与剪枝策略也是比较关键的问题,近些年来也得到了广泛研究。
本文针对数据流挖掘中的窗口机制、数据淘汰与剪枝策略、频繁闭项集与最大项集这三个需要解决的问题,主要完成了以下的研究工作:
(1)提出了一种数据流中挖掘频繁闭项集的近似挖掘算法A-Moment。它采用衰减窗口机制、近似计数估计方法和分布式更新信息策略来解决Moment算法中过度依赖于窗口和执行效率低等问题。
(2)本文针对削减节点规模问题,提出了一种新型数据结构Full-CET,并且基于该数据结构设计了数据流中挖掘频繁闭项集算法F-Moment和挖掘最大频繁项集算法MMFI。
(3)对新算法与典型算法进行了详尽实验及比较,分析了每个算法的效率。实验表明,这些新提出的算法在效率上要高于目前出现的同类典型算法。