论文部分内容阅读
本文的研究工作面向大数据处理任务,基于“Hadoop技术”、“并行化”、“负载均衡”的思想,将频繁模式挖掘算法运用在MapReduce框架上,研究了并行计算下有关挖掘算法及其负载均衡性能的优化技术,实现在大规模集群环境下提高数据处理的并行能力、集群系统的负载均衡性和合理的数据分发机制这一目标。文中通过引入FIUT算法并将其运行在Hadoop平台上来解决挖掘过程中的时空消耗和I/O负载问题。利用精简的FIU-Tree进行挖掘,能够有效降低搜索空间和递归次数;同时,利用Hadoop架构集群的方式和高度并行计算的MapReduce框架可以用来应对大数据计算的需求。因此,针对大数据分析处理任务,本文结合MapReduce实现了FIUT算法的并行计算。考虑到FIUT算法执行时的顺序性对并行挖掘的独立性造成了阻碍,文中对其分解步骤进行优化,将算法整个执行过程分为三个MapReduce工作执行,使各计算节点独立构建本地子树,完成并行挖掘的任务。在分布式集群中,负载均衡性能直接关乎并行算法的工作效率。因而在Hadoop环境下,关于协调各节点在计算负载上的平衡性也是本文的一个关注重点。对于现有的PFP算法在平均分组划分机制上的不足,本文选取新的负载评估计算方式并重新设定分组划分策略,实现全局计算的平衡性;此外,在对并行FIUT算法负载均衡性能的优化上,文中尝试将项集分解代价对节点计算负载的影响考虑在内,优化数据分配策略,由此提出了Hadoop集群环境下并行FIUT的负载均衡算法。该算法以尽可能缩小多个Reduce任务间长短项集数量差异作为分组划分标准,通过量化负载权值参数,预估节点处理任务时的计算负载来为各组间的数据分发提供依据;与此同时,为了直观反映当前集群的数据倾斜程度,文中研究并定义了并行熵作为负载平衡因子,通过分析其基本理论思想,推导出并行熵与集群整体负载情况之间的关系。在webdocs.dat数据集上的实验结果表明,与已有的基于MapReduce框架下的PFP算法相比,本文所提优化方案可以有效提升算法的并行挖掘效率,满足预期效果。