基于MapReduce的频繁模式挖掘算法并行化及负载均衡的研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户：jedy2008

【摘要】

：

【作者】

：

晏依

【出处】

：

南昌大学

【发表日期】

：

2020年02期

【关键词】

：

频繁模式挖掘 MapReduce 并行计算负载均衡并行熵

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文的研究工作面向大数据处理任务,基于“Hadoop技术”、“并行化”、“负载均衡”的思想,将频繁模式挖掘算法运用在MapReduce框架上,研究了并行计算下有关挖掘算法及其负载均衡性能的优化技术,实现在大规模集群环境下提高数据处理的并行能力、集群系统的负载均衡性和合理的数据分发机制这一目标。文中通过引入FIUT算法并将其运行在Hadoop平台上来解决挖掘过程中的时空消耗和I/O负载问题。利用精简的FIU-Tree进行挖掘,能够有效降低搜索空间和递归次数;同时,利用Hadoop架构集群的方式和高度并行计算的MapReduce框架可以用来应对大数据计算的需求。因此,针对大数据分析处理任务,本文结合MapReduce实现了FIUT算法的并行计算。考虑到FIUT算法执行时的顺序性对并行挖掘的独立性造成了阻碍,文中对其分解步骤进行优化,将算法整个执行过程分为三个MapReduce工作执行,使各计算节点独立构建本地子树,完成并行挖掘的任务。在分布式集群中,负载均衡性能直接关乎并行算法的工作效率。因而在Hadoop环境下,关于协调各节点在计算负载上的平衡性也是本文的一个关注重点。对于现有的PFP算法在平均分组划分机制上的不足,本文选取新的负载评估计算方式并重新设定分组划分策略,实现全局计算的平衡性;此外,在对并行FIUT算法负载均衡性能的优化上,文中尝试将项集分解代价对节点计算负载的影响考虑在内,优化数据分配策略,由此提出了Hadoop集群环境下并行FIUT的负载均衡算法。该算法以尽可能缩小多个Reduce任务间长短项集数量差异作为分组划分标准,通过量化负载权值参数,预估节点处理任务时的计算负载来为各组间的数据分发提供依据;与此同时,为了直观反映当前集群的数据倾斜程度,文中研究并定义了并行熵作为负载平衡因子,通过分析其基本理论思想,推导出并行熵与集群整体负载情况之间的关系。在webdocs.dat数据集上的实验结果表明,与已有的基于MapReduce框架下的PFP算法相比,本文所提优化方案可以有效提升算法的并行挖掘效率,满足预期效果。

其他文献

磁悬浮电机转子加强环设计及工艺研究

针对某型号磁悬浮永磁电机转子磁环胶接强度不能满足工作要求的问题，提出采用M46J／L1000复合材料缠绕加强环的保护设计方案，根据工艺实验结果，利用有限元分析软件MSC．Patran／Nastra

期刊

磁悬浮电机复合材料纤维缠绕有限元分析

铜绿微囊藻生长与环境因子的关系及其铜胁迫下的毒理学效应

我们从武汉市一富营养化池塘中分离了一株铜绿微囊藻，该藻是该池塘常年稳定发生水华的主要蓝藻。在纯化培养的基础上，我们开展了光照、温度、营养盐及Cu2+对该铜绿微囊藻生长及

学位

铜绿微囊藻生长环境因子毒理铜离子

UCXP-wa相机影像的立体模型恢复技术探讨

针对UCXP-wa相机影像的特点,本文介绍了利用外方位元素恢复立体模型的方法。分析影响空三加密成果质量的因素,并结合工作实际,总结作业中的注意事项,对常见错误进行解决分析。

期刊

UCXP-wa航摄质量空三加密立体模型恢复精度检测UCXP - wa aerial quality three encryption recovery

泻白温胆汤治疗小儿急性支气管炎（痰热壅肺证）的临床观察

目的:观察泻白温胆汤对急性支气管炎(痰热壅肺证)患儿的临床疗效、中医证候积分及单项症状积分等影响。评价泻白温胆汤治疗小儿急性支气管炎的临床疗效。方法:将符合纳入标准的64例急性支气管炎的患儿随机分为试验组和对照组各32例。试验组给予泻白温胆汤中药汤剂治疗,对照组给予小儿清肺化痰口服液治疗。两组均治疗7d。观察两组患儿的总有效率及治疗前后临床症状、体征的改善情况。结果:纳入的64例患儿中,试验组脱落

学位

泻白温胆汤小儿急性支气管炎痰热壅肺临床疗效

碱茅（Puccinellia tenuiflora）SnRK2基因（PutSnRK2）的克隆及功能解析

SnRK2 (Sucrose non-fermenting 1-related protein kinases 2)是一类仅存在于植物中的蛋白激酶,是SnRK家族三个亚家族(SnRK1, SnRK2, SnRK3)的成员之一,已在众多植物中被克

学位

碱茅SnRK2环境逆境转基因

基于MapReduce的频繁模式挖掘算法并行化及负载均衡的研究

其他学术论文