论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,是信息科学领域的前沿研究课题之一,关联规则揭示项集间的相联关系,已广泛应用于科研、商业、金融等领域,极大提高了决策支持的能力。在众多的数据挖掘算法中,挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘频繁项目集是挖掘关联规则中的关键问题之一。因为最大频繁项目集已经隐含了所有的频繁项目集,所以可以将发现频繁项目集的问题转化为发现最大频繁项目集的问题。本文主要对挖掘最大频繁项目集的问题进行了研究,并将其应用到分布式计算环境中。
本文首先介绍关联规则相关概念及其经典算法Apriori和FP-growth,并简介最大频繁项目集挖掘的研究动向及相关算法。然后基于改进的FP-tree,提出一种最大频繁项目集算法IFP-HaxFl,该算法不产生条件模式基,直接通过节点调整操作,得到后缀树,然后挖掘后缀树得到候选最大频繁模式,通过对最大频繁模式树的快速访问,可以实现候选最大频繁模式的子集检测。在分布式计算环境中,本文提出GMF IM 算法来实现全局最大频繁项目集的挖掘,它采用局部-全局的通信方式,减少了通信量,利用全局频繁项目和局部频繁项目的关系,尽量让各站点独立挖掘局部最大频繁项目集合,然后在全局主站点实现全局最大频繁项目集的生成。实验表明所提出的两个算法是有效的。