论文部分内容阅读
随着信息技术的快速发展,许多领域中每天都不断产生大量的数据,如传感器网络中传输的各种数据等。这些产生的海量数据很多都是以不确定数据流的形式存在。数据挖掘提供了对这类数据进行合理的分析与解释的方法。频繁项集挖掘可以发掘出有价值的数据项之间的关系。最大频繁项集挖掘可以减少频繁项集输出的数量。在某些应用中,人们只关心最大频繁项集而不需要所有的频繁项集,因此,研究和挖掘最大频繁项集显得尤为重要。本文在查阅大量国内外相关论文和文献的基础上,总结了数据流的特点、处理模型以及不确定数据的产生原因、表现形式和处理模型。从节约存储空间和减少搜索空间两大切入点两点入手,本文提出了基于衰减窗口的不确定数据流最大频繁项集挖掘算法SUFMax,以及针对该算法挖掘效率不高的缺点,在此基础上又提出了TUFSMax算法。论文的主要工作包括:1、概述了最大频繁项集挖掘的相关概念,以及频繁项集和最大频繁项集挖掘的相关算法。2、挖掘最大频繁项集主要的困难在于两个方面:(1)设计出存储不确定数据流的概要信息的数据结构;(2)提出高效的超集检测方法,用于快速的挖掘最大频繁项集。从节约内存空间的角度出发,并且考虑到“旧数据”可能会对“新数据”产生影响,本文提出了SUFMax算法,该算法基于衰减窗口在不确定数据流上挖掘最大频繁项集,同时采用了从挖掘局部最大频繁项集到挖掘全局最大频繁项集的策略。3、针对SUFMax算法存在“漏解”的缺点,本文提出了基于衰减窗口的不确定数据流最大频繁项集挖掘算法TUFSMax。该算法将数据流的概要信息存储在UF-stream树结构中,节约了存储空间。同时采用标记树结点的方法避免超集检测,减少了搜索时间。实验证明,该算法相比于SUFMax算法,挖掘效率更高,运行时间更少。4、总结全文,并指出本文研究内容的不足之处以及未来的研究方向。