论文部分内容阅读
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新的概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。 数据挖掘利用分类、关联性、序列分析、群集分析、机器自我学习及其他统计方法,从数据库庞大的数据中,找出隐含的、未知的、但却十分有用的信息。它是一个涉及多学科领域的新兴学科,并伴随着这些学科的发展而不断发展。数据挖掘系统可以挖掘出多种类型的模式,而其中描述给定数据集的项之间有趣联系的关联分析模式就是一个非常重要的研究方向。本文主要从事的是数据挖掘中关联规则的研究。 在整个数据挖掘的研究中,算法的研究占有特别重要的地位。一方面,数据挖掘面对的是大量数据集,因此算法的效率将对其应用起关键的作用;另一方面,我们面对的计算机系统在其性能上远远不能满足对大量数据集进行处理的要求。因此,我们必须研究和改进现有的算法,使其有更广泛的应用前景。鉴于此,本文着重对关联规则挖掘算法进行了研究。 本文首先对数据挖掘作了一般性讨论,包括数据挖掘的概念、模式、挖掘的主要问题、系统的分类以及数据挖掘的应用和发展趋势。然后,本文对数据挖掘中重要的关联规则挖掘算法做了深入的研究,分析了关联规则中经典的Apriori算法及其他学者对Apriori算法的改进算法,总结了算法中存在的问题;接着,详细介绍了DHP(Direct Hashing and Pruning)算法及在Apriori算法和DHP算法基础上的快速挖掘算法FARM(Fast Association Rule Mining);最后,在分析FARM算法的特点和性能的基础上提出了改进算法FARM2,并将FARM2算法与Apriori算法、DHP算法以及FARM算西南交通大学硕士研究生学位论文第n页法进行了比较分析,得出了FARMZ算法在效率上优于上述几种算法的结论。