论文部分内容阅读
随着互联网的迅猛发展与信息技术的普及,快速积累的海量数据时代已经来临。如何有效的处理海量数据是现今信息技术领域最炙手可热的话题。解决大数据的相关问题不仅仅是时间上的挑战,还需要大量的机器硬件设备来支持,以便高效、准确的处理和分析数据。云计算技术的出现不仅在实际上摆脱了昂贵的硬件费用问题,对海量数据处理的实用化也提供了解决方案。云计算的并行计算模型使得它遵循着不信任任何节点服务器的观点。相同的一个数据块的多个副本会存放在不同节点上。虽然计算节点不稳定,但是这些节点却可以构建出稳定的云计算系统。当今流行的Hadoop是Apache基金会的开源项目,为程序开发者提供了一个分布式系统的基础框架。本论文针对离散化算法和复杂网络社团发现算法进行了深入研究,并在MapReduce框架下对这两算法进行了并行化设计与实现,论文的主要工作如下。1)针对传统的连续属性离散化算法的不足,提出一种基于MapReduce框架下的并行化Chi2算法来提高对海量数据预处理的能力。通过深入研究传统的Chi2算法中的可并行性,设计并实现了相应的MapReduce框架下的函数,并依据属性重要性程度对属性离散化顺序进行合理调整。实验结果表明基于MapReduce编程模式的Chi2算法具有良好的可扩展性和较高的执行效率,对于快速处理海量数据提供了一种有效方法。2)在大型网络中经常利用复杂网络来探寻社团结构,但由于在此过程中需要计算网络中每对节点之间的最短路径,进而产生了相应的局限性。为解决此类问题,在MapReduce模型框架下进行编程,提出一种并行版本的格文-纽曼(GN)算法来支持大规模网络社团的计算。在Hadoop上利用开源平台MapReduce框架实现了MR-GN算法。实验表明随着reducer个数的线性增加,所用的时间呈线性减少趋势。在减少的过程中,当reducer的个数达到饱和时,时间曲线将会保持平稳。