不确定数据流最大频繁项集挖掘算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zhj8028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,许多领域中每天都不断产生大量的数据,如传感器网络中传输的各种数据等。这些产生的海量数据很多都是以不确定数据流的形式存在。数据挖掘提供了对这类数据进行合理的分析与解释的方法。频繁项集挖掘可以发掘出有价值的数据项之间的关系。最大频繁项集挖掘可以减少频繁项集输出的数量。在某些应用中,人们只关心最大频繁项集而不需要所有的频繁项集,因此,研究和挖掘最大频繁项集显得尤为重要。本文在查阅大量国内外相关论文和文献的基础上,总结了数据流的特点、处理模型以及不确定数据的产生原因、表现形式和处理模型。从节约存储空间和减少搜索空间两大切入点两点入手,本文提出了基于衰减窗口的不确定数据流最大频繁项集挖掘算法SUFMax,以及针对该算法挖掘效率不高的缺点,在此基础上又提出了TUFSMax算法。论文的主要工作包括:1、概述了最大频繁项集挖掘的相关概念,以及频繁项集和最大频繁项集挖掘的相关算法。2、挖掘最大频繁项集主要的困难在于两个方面:(1)设计出存储不确定数据流的概要信息的数据结构;(2)提出高效的超集检测方法,用于快速的挖掘最大频繁项集。从节约内存空间的角度出发,并且考虑到“旧数据”可能会对“新数据”产生影响,本文提出了SUFMax算法,该算法基于衰减窗口在不确定数据流上挖掘最大频繁项集,同时采用了从挖掘局部最大频繁项集到挖掘全局最大频繁项集的策略。3、针对SUFMax算法存在“漏解”的缺点,本文提出了基于衰减窗口的不确定数据流最大频繁项集挖掘算法TUFSMax。该算法将数据流的概要信息存储在UF-stream树结构中,节约了存储空间。同时采用标记树结点的方法避免超集检测,减少了搜索时间。实验证明,该算法相比于SUFMax算法,挖掘效率更高,运行时间更少。4、总结全文,并指出本文研究内容的不足之处以及未来的研究方向。
其他文献
论文对信息检索的应用现状和所采用的技术进行了分析,对面向本体的信息检索技术进行了深入研究。针对旅游领域信息检索效率低下的问题,研究并实现了一个基于领域本体的旅游信
自WCDMA、CDMA2000、TD-SCDMA等3G网络投入运营以来,移动数据业务得到越来越广泛的应用。同时,运营商也愈加关注如何在一定的无线资源情况下提高网络服务质量,为用户提供更好
SOA应用生成的核心--流程构建过程,因缺少语义支持而欠缺灵活便捷性,即需要面向语义的多层次的SOA流程生成平台。基于语义网技术的新型服务流程生成平台应运而生。本文首先介
近年来,空指针引用故障引发的软件安全问题层出不穷,给软件开发公司及用户带来了极大的困扰,也引起了国内外对之进行故障发现的研究热潮。数组空指针故障是空指针引用故障的