论文部分内容阅读
计算机技术已经成熟地应用于现实生活中的各个领域,实现了对数据的收集、存储以及简单统计处理分析。数据挖掘技术能够进一步发现隐藏在数据中的关联规则,而频繁模式挖掘是关联规则挖掘的重要步骤。频繁模式挖掘有着广泛的应用领域,根据挖掘对象的不同,又可以得到不同的分类。本文对现有的频繁模式挖掘算法进行了详细的总结,根据事务中项发生的位置,采用位置值或者比特位的形式压缩存储数据集,基于位值压缩存储研究频繁模式中的频繁项集挖掘算法和频繁序列挖掘算法,设计了不同挖掘要求下的高效算法以及适用于生物序列和顾客购买行为分析的应用算法。本文的研究内容和创新成果如下:首先,介绍了频繁模式挖掘的相关定义和分类,并给出了不同分类下的典型算法。通过研究现状分析,对现有频繁模式挖掘算法进行总结对比,进一步学习算法各自的优缺点,发现其中存在的问题和面临的新挑战。在充分了解频繁模式挖掘算法发展过程的基础上,列举频繁模式挖掘算法的典型应用,根据频繁模式挖掘算法的理论意义和应用价值,对其发展趋势进行预测分析。其次,提出了两种不同挖掘需求下的频繁项集挖掘算法。Max Pat_HB算法通过挖掘最大频繁项集,有效缩小了频繁项集的规模,采用边产生候选项集边进行频繁性测试的策略来避免过多候选集的产生。与此同时,算法采用位向量和栈思想,用位向量值的变换代替出栈和入栈操作,使得算法达到较高的效率。FP_TopK算法用于挖掘前k名频繁项集,该算法适用于需要较少结果集的专家系统或者决策支持系统等。算法从树形结构中抽取节点集合,节点信息中包含节点在树中先序遍历和后序遍历的顺序值,进而基于节点信息进行候选集的生成和测试。在保证频繁性的前提下,得到高质量的挖掘结果。再次,设计了三种不同挖掘需求下的频繁序列模式挖掘算法。CB-PMFS算法是具有常规挖掘任务的算法,引入位置信息,可以通过一次对比双向产生候选集,很好地解决了算法运行过程中的瓶颈的问题,即产生候选集所需要的时间过多。TDD_MFS算法用于挖掘最大频繁序列模式,也可以有效地减小频繁序列模式的结果集,算法采用延迟分解的思想,自顶向下,总是对最长的序列进行分解,避免了对频繁子集的重复挖掘。FIIP-BM算法将频繁序列模式挖掘算法进一步划分为内部问题和内联问题。内部问题指在一次事务中发生,内联问题则是在制定的间隔内,发生在同一单元的不同的事务中。当间隔设置为零时,算法适用于内部问题,即常规挖掘任务;当间隔不为零时,算法适用于内部问题和内联问题,可以得到内部频繁模式和内联频繁模式。最后,结合生物序列的特性和顾客购买行为的分析需求设计了两个应用算法。生物序列挖掘算法FBSB考虑到生物序列必须连续出现的特性,引入元素的位置信息建立快速排序列表,通过位置信息值必须相邻的要求,保证了所有候选集都是真实出现的,并且可以得到全部频繁序列,满足了生物序列挖掘正确性的要求。顾客购买行为挖掘算法FP-ICA将顾客购买行为分析分为面向货物和面向顾客的,通过位向量和位值变换来实现挖掘过程,面向货物的挖掘结果可以用于商家管理自己的货架,促使顾客在一次购买行为中购买更多的相关货物;面向顾客的挖掘结果可以用于向顾客推荐其可能需要的货物,促使顾客在以后购买更多可能并没有计划要购买的货物。实验在真实数据集和人造数据集上进行,对算法的效率、可扩展性及内存开销等进行了分析,在保证高质量的挖掘结果的前提下,算法的高效性和良好的扩展性得到了验证。