基于Hadoop平台的并行关联规则挖掘算法研究

被引量 : 7次 | 上传用户:davidzn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
ARM是数据挖掘的一个重要领域,现已经得到广泛应用。随着社会的快速发展,人们的生活水平越来越高,活动越来越频繁,产生的数据量越来越大,有的甚至以PB或TB级增长,面对如此庞大的任务,已有的串行算法如Apriori算法或是传统基于MPI及其他编程模型的并行算法如CD、DD等算法都已经不能胜任。而2004年由Google提出的Hadoop平台解决了传统编程模型不能解决的节点失效问题,同时具有很好的Expansibility,动态负载均衡性,因此研究基于此平台的并行ARM算法迫在眉睫。本文的主要工作如下:1)从理论上证明DHP,Eclat,FP_Growth算法能够基于Hadoop进行并行化改进(详见第3章)。2)对DHP算法,主要从哈希表和F_itemsets的生成两个方面,提出基于Ha doop平台并行改进的策略,得到H_DHP算法,并加以实现。同时借助Hbase数据库将生成的F_itemsets存入其中,提高关联规则的生成效率。然后从运行时间,加速比,可扩展性三个方面对DHP和H_DHP算法进行对比测试。最后在H_DHP有效性验证时将使用小数据进行(详见第4章)。3)对Eclat算法,针对数据垂直分布的特点,提出基于Hadoop平台并行改进的策略,得到H_Eclat算法,加以实现。关联规则的生成及H_Eclat的性能测试和有效验证,基本方法同H_DHP,此处不再赘述。(详见第5章)。4)FP_Growth算法构造TP_Tree时,互不干涉,并且不生成C_itemsets,通过不断增长频繁模式,从而生成F_itemsets。针对它的这些特点,提出了基于Ha doop平台并行改进的策略,得到H_FP_Growth算法,加以实现。关联规则的生成,H_FP_Growth的性能测试、有效性验证等都进行了研究。(详见第6章)。
其他文献
1目的从临床与实验两个方面观察膝骨关节炎患者(KOA)免疫球蛋白(Ig)、细胞自噬的变化及新风胶囊对其的影响,并基于细胞PI3K/Akt-m TOR及Beclin-1通路探讨新风胶囊降低膝骨关
“馨绿”是从野生软枣猕猴桃群体中选育出的抗寒、耐贮的新品种。2016年3月通过吉林省农作物品种审定委员会审定并定名。该品种果实倒卵形,果皮绿色光滑,纵径31.2-33.0 mm,横
在河道建设中就要做好河道治理工程设计工作,在保有河道原有形态的基础上,结合河道变化规律,做好转变工作,确保河道的稳定。因此在河道治理工程中就要结合实际情况来进行综合
现代教学论指出:教学过程是师生交往、积极互动、共同发展的一个动态过程.在这个动态发展的过程中,通过师生间、学生间动态的信息交流,实现相互沟通、相互影响、相互补充,从
<正>改革开放以来,我国的私营经济得到了迅速的发展,私营企业已经成为我国各地区最为活跃、发展最为迅速的部门,为拉动国民经济增长做出了一定的贡献。但尽管如此, 我国私营
竞争是市场活力的来源,是保证市场经济良性发展的前提条件。然而现行市场中存在大量限制排除竞争的行为,其中纵向价格垄断被广泛运用且隐蔽性极强。由于纵向垄断的经济效果具
经电影戏剧等大众文化塑造之后所呈现的角色形象,是新闻从业者形象构建的重要组成部分,对新闻从业者的自身建设和社会评价均有重要影响。而在电影创作过程中,每个角色形象的
笔者从道路交通事故和景观方面 ,研究道路中央隔离设施的功能与特征。首先 ,利用对某城市道路中央有无隔离带情况下记录的交通事故数据 ,进行交通安全统计比较分析 ;其次 ,分
目的肝豆状核变性(Hepatolenticular,HLD),又称Wilson病[1],系常染色体隐性遗传性铜代谢障碍疾病,患病后期极易发生肝硬化。WD肝硬化发展到失代偿期时,腹水是其中一个常见的
通过物理模型试验研究土工格室加筋土地基的承载力、变形特征及加筋格室参数对加固效果的影响,以确定土工格室加固路堤软弱地基的合理结构形式。研究结果表明:与无筋土地基比较