论文部分内容阅读
随着计算机技术、通讯技术以及网络技术的迅速发展及普及,大量的数据库被广泛运用于社会生活的各个领域,积累的数据量很容易就达到TB级,甚至PB级。这些数据往往是有噪声的、大量的、异构的和复杂的,很难直接使用。所以,如何能以更加快速、低成本、高效的方式从海量数据中挖掘出有价值的、可理解的知识,从而帮助决策者更好地决策已成为数据挖掘技术领域的新课题。云计算的出现为海量数据挖掘带来了新的解决方案。Hadoop是由Apache基金会开源实现的一种云计算技术,它的关键技术是Hadoop分布式文件系统HDFS和MapReduce并行编程框架。在深入研究传统数据挖掘算法的基础上,如何结合MapReduce并行编程框架对传统数据挖掘算法进行改进,使之能够处理海量数据挖掘问题,是数据挖掘领域的一个热点。首先,本文详细研究了云计算、Hadoop的分布式文件系统HDFS以及MapReduce并行编程框架,阐述了基于Hadoop的数据挖掘系统的设计架构。然后,在深入研究传统关联规则挖掘算法Apriori的基础上,给出了将Apriori算法并行化处理的策略,提出了一种改进的并行算法AprioriMR。接着,在先前研究的基础上,引入幂集和矩阵的概念,提出了基于Hadoop和幂集的关联规则挖掘改进算法AprioriPMR以及基于Hadoop和矩阵的关联规则挖掘改进算法AprioriMMR。最后,搭建了结合Hadoop和HBase的实验环境,用Java完成改进算法的编写,并采用不同的实验数据集和实验条件测试了改进算法的正确性,通过实验结果的对比分析,得出改进算法具有更高的性能。