论文部分内容阅读
自从1993年关联规则的概念由Agrawal等人提出之后,关联规则挖掘的研究就一直是数据挖掘领域的一个非常活跃的研究领域。目前,在集中式环境下的关联规则挖掘的研究已经取得了丰硕的成果,相关的理论也已趋于成熟和完善。但是在分布式系统环境下进行关联规则挖掘的研究是最近几年来刚刚提出的一个新的课题,相应的研究成果不多,相关的理论也较少。随着网络技术和分布式数据库技术的发展,大量的数据分布存储在网络的各个节点。由于受到通信效率,安全性等因素的影响,这些分布的数据不可能集中起来存储,从而使基于分布式系统的关联规则挖掘算法的研究成为亟待解决的问题。这也正是本课题研究的意义所在。 本文在对关联规则的基本原理和方法进行介绍和分析的基础之上,得到了一种Apriori算法的改进算法—AprTidRec算法。在对关联规则分布式挖掘算法CD算法,DD算法和FDM算法的介绍和分析基础之上,得到了在分布式系统下实现关联规则挖掘的两种方案,给出了两种方案的体系结构图,并对两者进行了对比分析。本文的最后给出了分布式关联规则挖掘的系统实现方案,该系统基于C/S结构,主要由关联规则的局部挖掘模块和全局挖掘模块两个基本模块组成。运行关联规则局部挖掘模块之后,将基于局部数据库挖掘出局部关联规则,运行服务器端的关联规则挖掘模块,将完成关联规则的全局挖掘,得到基于全局数据库的全局频繁项目集。 为了验证算法的有效性,采用设计实验的方法对关联规则挖掘系统进行了测试,实验结果表明该算法具有很好的适用性和较高的执行效率。