最大和最长频繁项集增量更新研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:liangdd1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是目前数据库研究中的一个热门领域,关联规则挖掘又是数据挖掘中最活跃的分支,而其中发现频繁项集则是关联规则挖掘应用中的关键技术和步骤。现有的频繁项集挖掘算法主要针对静态数据进行,但在现实生活中我们面对的数据常常是动态变化的,比如在线提供的实时服务、大型商场的购物清单,此外基于互联网的很多应用所提供的数据,也都是动态变化的。在动态变化的环境下,传统的频繁项集挖掘算法存在两方面问题,一方面,挖掘得到的频繁项集不能正确反映当前数据的状态;另一方面,由于数据量非常大,过多地扫描数据库使得挖掘效率很低。为此,本文在深入了解数据动态变化情况的同时,还对国内外关于频繁项集挖掘的研究现状进行了综合分析比较,然后选择了两种有代表性的频繁项集进行深入研究。首先,根据支持度阈值变大和变小两种情况,分别提出了两个改进的最大频繁项集增量更新算法。当支持度变大时,Bigger-SMFIU算法采用逆向判断的方法挖掘新的最大频繁项集。而Smaller-SMFIU算法主要针对支持度变小的情况,从高维到低维依次扫描原来的最大频繁项集,将其分为两种情况分别处理,最终得到更新后的最大频繁项集。其次,提出了改进的FP-tree,并基于此FP-tree结构提出了一种新的最长频繁项集挖掘算法,考虑事务数据库是随时变化的,接着又详细描述了数据库变大和变小时的最长频繁项集增量更新算法。最后,通过与已有算法进行对比实验,验证了本文所提出的最大和最长频繁项集增量更新算法的可行性和有效性,并对每个算法的执行效率进行分析和比较。
其他文献
图像作为一种媒介具有文字所无法比拟的丰富表现力,成为我们这个社会一种非常重要的存储和表现信息的载体。但是由于各种原因引起了图像信息的损坏,对这些损坏的信息进行恢复就
随着数据规模的不断增大以及数据维数的不断增长,传统的聚类算法已经无法获得有意义的聚类结果。针对高维数据流的聚类问题,本文将重点放在聚类过程中存储空间的有效利用、聚
视频文本信息是视频内容的重要线索,它对于视频分段、视频检索和视频信息摘要等视频自动化处理有着重要的意义。但是如何在复杂背景的视频图像中准确提取出文本信息,这在目前仍