复杂网络社团发现算法的并行化设计与研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:lastdemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展与信息技术的普及,快速积累的海量数据时代已经来临。如何有效的处理海量数据是现今信息技术领域最炙手可热的话题。解决大数据的相关问题不仅仅是时间上的挑战,还需要大量的机器硬件设备来支持,以便高效、准确的处理和分析数据。云计算技术的出现不仅在实际上摆脱了昂贵的硬件费用问题,对海量数据处理的实用化也提供了解决方案。云计算的并行计算模型使得它遵循着不信任任何节点服务器的观点。相同的一个数据块的多个副本会存放在不同节点上。虽然计算节点不稳定,但是这些节点却可以构建出稳定的云计算系统。当今流行的Hadoop是Apache基金会的开源项目,为程序开发者提供了一个分布式系统的基础框架。本论文针对离散化算法和复杂网络社团发现算法进行了深入研究,并在MapReduce框架下对这两算法进行了并行化设计与实现,论文的主要工作如下。1)针对传统的连续属性离散化算法的不足,提出一种基于MapReduce框架下的并行化Chi2算法来提高对海量数据预处理的能力。通过深入研究传统的Chi2算法中的可并行性,设计并实现了相应的MapReduce框架下的函数,并依据属性重要性程度对属性离散化顺序进行合理调整。实验结果表明基于MapReduce编程模式的Chi2算法具有良好的可扩展性和较高的执行效率,对于快速处理海量数据提供了一种有效方法。2)在大型网络中经常利用复杂网络来探寻社团结构,但由于在此过程中需要计算网络中每对节点之间的最短路径,进而产生了相应的局限性。为解决此类问题,在MapReduce模型框架下进行编程,提出一种并行版本的格文-纽曼(GN)算法来支持大规模网络社团的计算。在Hadoop上利用开源平台MapReduce框架实现了MR-GN算法。实验表明随着reducer个数的线性增加,所用的时间呈线性减少趋势。在减少的过程中,当reducer的个数达到饱和时,时间曲线将会保持平稳。
其他文献
Jan Zarzycki在前入的基础上完善了橙色绿屈挠菌类的三羟基丙酸循环。在三羟基丙酸固碳途径的开始,两分子乙酰辅酶A羧化生成丙二酰辅酶A。然后被还原去辅酶A生成三羟基丙酸;在
本文主要研究下单调次线性框架下简单下单调SL-鞅的不等式,首先通过次线性期望的定义给出一簇映射并在这样的一簇映射下定义鞅,然后讨论简单鞅不等式。最后部分,我们建立一般
数学模型是研究生化系统特性和动态行为的重要工具,通过数学模型研究动态生化系统的结构以及变化规则推动了生化系统的发展。运用时间进程数据推断生化系统模型,仍是研究生化
变分不等式在经济、工程和运输等领域有广泛应用,广义向量似变分不等式作为向量变分不等式的一种推广形式.变分不等式解的存在性问题一直被广泛研究,变分不等式的稳定性和灵
引入适当的有偏估计来改善最小二乘估计存在的复共线性问题的缺陷,在无约束的线性回归模型的研究中已经发展的相当成熟。但是在大量的实际研究问题中,参数经常会伴随着一些限
随着亚模性质的广泛应用,亚模函数的许多泛化性质也被提出和研究。然而,目前大多数泛化性质针对的是特殊的问题。在本文中,我们关注拟亚模性质,这是一种普遍的泛化性质。拟亚
首先,介绍食饵-捕食模型的发展概况,给出本文将用到的一些相关知识,论述本文的主要工作.其次,研究一类捕食者具有阶段结构与时滞的食饵-捕食系统,利用微分方程稳定性理论,讨
控制方式、受控对象或控制器需要用分布参数描述的控制系统称为分布参数控制系统。在工程技术中除受控对象外,控制装置或执行机构也可能是分布参数系统。分布参数系统的稳定
1,3-丙二醇作为一种重要的化工原料,对于合成性能优异的高分子聚合物单体有重要的实际应用价值,因此利用微生物发酵法生产1,3-丙二醇受到诸多学者们的广泛关注。然而,该发酵
直觉模糊集是可以同时反映事物的可信程度与不可信程度的集合。所以,直觉模糊逻辑比模糊逻辑更广泛的解释日常生活中事物或现象的不确定性的模糊现象。归结方法是定理机器证