论文部分内容阅读
ARM是数据挖掘的一个重要领域,现已经得到广泛应用。随着社会的快速发展,人们的生活水平越来越高,活动越来越频繁,产生的数据量越来越大,有的甚至以PB或TB级增长,面对如此庞大的任务,已有的串行算法如Apriori算法或是传统基于MPI及其他编程模型的并行算法如CD、DD等算法都已经不能胜任。而2004年由Google提出的Hadoop平台解决了传统编程模型不能解决的节点失效问题,同时具有很好的Expansibility,动态负载均衡性,因此研究基于此平台的并行ARM算法迫在眉睫。本文的主要工作如下:1)从理论上证明DHP,Eclat,FP_Growth算法能够基于Hadoop进行并行化改进(详见第3章)。2)对DHP算法,主要从哈希表和F_itemsets的生成两个方面,提出基于Ha doop平台并行改进的策略,得到H_DHP算法,并加以实现。同时借助Hbase数据库将生成的F_itemsets存入其中,提高关联规则的生成效率。然后从运行时间,加速比,可扩展性三个方面对DHP和H_DHP算法进行对比测试。最后在H_DHP有效性验证时将使用小数据进行(详见第4章)。3)对Eclat算法,针对数据垂直分布的特点,提出基于Hadoop平台并行改进的策略,得到H_Eclat算法,加以实现。关联规则的生成及H_Eclat的性能测试和有效验证,基本方法同H_DHP,此处不再赘述。(详见第5章)。4)FP_Growth算法构造TP_Tree时,互不干涉,并且不生成C_itemsets,通过不断增长频繁模式,从而生成F_itemsets。针对它的这些特点,提出了基于Ha doop平台并行改进的策略,得到H_FP_Growth算法,加以实现。关联规则的生成,H_FP_Growth的性能测试、有效性验证等都进行了研究。(详见第6章)。