大规模在线社交网络中社区结构发现相关技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:haoge2919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络社交的普及,人类社会快速步入在线社交网络时代。在线社交网络普遍具有“社区结构”特性,社区结构的挖掘和分析已成为在线社交网络领域的一个研究热点和重点。社区发现技术的研究已经开展了很多年,并取得了丰硕的成果。然而随着信息技术的进步,当前的社交网络所呈现出的大规模、高复杂性、动态演化的特征,对社区发现方法在处理速度、精确性及动态应对等方面提出了更高的要求:1)快速性是社区发现的基本要求。面对规模持续膨胀的、交互不断加强的、以及群体行为不断变化的在线社交网络,如何利用更加高效的方法和技术来处理大规模在线社交网络数据,是社区发现面临的重要难题。2)准确性是社区发现技术追求的目标。关于社区划分质量的衡量,虽然没有统一的标准,但在同一指标下,各种方法的优劣好坏却一目了然。如何发现社交网络中的自然意义下的真实社区划分,是所有社区发现方法前进的方向和终极目标。3)高可扩展性是社区发现方法的发展方向。传统的社区发现方法缺乏可扩展性,不支持大规模并行处理,不适合处理当前千万级节点规模的在线社交网络。4)社区结构的动态演化为社区发现技术带来新的挑战。在线社交网络的结构动态变化,个体及群体行为复杂多样,这给社区发现带来了新的困难和提出了更高要求。只有准确发现发展过程中的社区结构,才有可能理解和掌握社区演化的内在机理。针对上述问题,本文基于MapReduce的大规模并行处理思想,精选目前优秀的社区结构发现算法infomap进行并行化,并对社区结构发现算法大规模并行化的支撑技术进行了研究,具体研究成果如下:(1)提出了基于MapReduce模型的社区发现算法infomap的并行化算法inforMR,实现了infomap算法的高可扩展性。infomap算法是目前社区发现算法中精度最高的,但该算法需要大量的随机数据访问,所以一般基于内存实现,对于大规模在线社交网络而言,infomap面临计算时间和内存空间开销方面的不足。针对这一问题,inforMR首先基于分治思想,按照节点到达顺序将社交网络进行分割;然后对infomap中基于全局搜索的社区合并策略进行改进,通过局部贪婪搜索方式,减少搜索空间,并利于MapReduce实现;最后通过MapReduce编程,实现了infomap算法的大规模并行化。实验表明,该算法具有较好的可扩展性,在计算速度上具有接近线性的加速比。(2)提出了基于mapreduce的多层次图划分算法dmgp。informr可扩展性好,但准确度与原算法比有所降低,主要是因为其采用了简单的网络划分算法,网络划分的质量较差。多层次图划分模型的实现,如metis,是目前普遍采用的图划分方法,具有较高的划分质量,但已有算法不能满足大规模在线社交网络的分析需要。dmgp基于mapreduce模型对metis算法进行了并行化,1)在图压缩阶段,基于mapreduce模型实现了重边匹配策略,实现了图规模以近似指数级的速度快速压缩;2)在图压缩阶段,通过大规模并行,提高i/o性能,避免了保存大量中间结果所需的开销;3)在划分的还原迭代阶段,通过大规模并行提高划分质量评估的性能和分区优化调整性能。实验表明,dmgp能对千万节点规模的在线社交网络进行有效划分,且其精度与metis相差不到10%;基于dmgp的社区发现算法infomr的精度与informap相当。(3)提出了一个通用的基于mapreduce的社区发现框架mrhcd。传统的社区发现方法大多面临infomap同样的困境。分析总结了infomr的实践过程后,我们认为可以将该方式推广:大规模在线社交网络中的层次社区结构发现以及非重叠社区结构发现可以通过类似的两阶段过程实现:网络划分阶段和并行社区发现阶段。mrhcd集成了dmgp和hcd。在网络划分阶段,dmgp具有较高的精度,能够胜任大规模在线社交网络的划分任务,且不破坏网络中的社区结构。在并行社区发现阶段,基于hadoopstreaming的hcd模型在不需要修改社区发现算法业务逻辑的情况,实现了社区发现算法的大规模并行化,而且可以保证较高的社区发现精度。在实验过程中,我们在mrhcd框架部署了三个优秀层次社区发现方法,验证了提出的mrhcd可以快速实现louvain、oslom等算法的大规模并行化,加速了算法的计算过程,并提高了可扩展性,同时还保持了与原算法相当的算法精度。(4)提出了一种多网络协同划分算法cpmn。协同划分是跨网络社区发现的一个支撑技术,目前还缺乏相关研究。许多用户在多个社交网络中注册账号并产生行为活动。为了更加全面地了解社交网络中的社区结构,需要进行跨社交网络的协同分析。多网络比单网络规模更大,且因为分布在不同网络中的同一个体(锚点)而产生了联系。即使采用mrhcd框架,也无法处理有关联关系的跨网络的社区发现。根据锚点的分布对这些网络进行划分,锚点分布一致度较高的分区被认为是相似分区,将这些相似分区置于同一服务器处理,即可实现跨网络的协同分析。cpmn是在dmgp的基础上改进的,增加了锚点分布限制条件。cpmn在图粗化阶段引入优先级机制和纯度的概念保证和记录锚点的一致性,并通过mapreduce模型实现图的快速压缩;在初始划分阶段则通过标签传播模型得到初始划分;在细化阶段通过大规模并行实现分区调整,优化割集和分区均衡度。实验表明,CPMN框架可以有效地处理多个在线社交网络中的协同划分问题,并使得锚点的分布尽可能一致,同时该框架具有较高的处理速度和可扩展性。总的来说,本文针对大规模在线社交网络中的社区发现相关问题展开研究,主要技术思路是通过大数据分析处理工具以及分治策略对已有的优秀算法进行并行化以适用于大规模网络。此外,我们还对跨网络的社区发现的支撑技术–多网络协同划分展开研究。整体上看,本文中提出的方法和框架基本都达到了设计指标,可以有效处理千万节点规模以上的社交网络。
其他文献
目的探讨腹膜透析相关性腹膜炎反复发作的临床特点以及危险因素。方法本研究为回顾性研究,收集中国科学技术大学附属第一医院腹膜透析中心2015年4月至2019年4月发生腹膜透析
目的 探讨兴趣导入教学模式在医用生物学中的应用及价值.方法 随机选取我院临床专业5年制学生100人,然后分成观察组与对照组2组,每组各50例,观察组的学生按兴趣导入教学模式
《方剂学》的学习在中医学学习过程中具有非常重要的地位,探讨好的学习方法会起到事倍功半的作用,病例导入式教学法是笔者在多年《方剂学》教学过程中总结出来的行之有效的教
移动社交网络(Mobile Social Netwoks, MSN)是由一定范围内的,携带移动设备的用户组成的分布式移动无线网络。例如,一个校园内的所有学生,可以通过他们的移动设备组成一个移
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
红茶菌在我国民间很早就有培养和流传,并作为民间的一种日常食用的传统饮料之一。近年来,红茶菌在日本及欧美兴起了应用和研究的新高潮。综述红茶菌的历史,红茶菌菌种分离,红
2009年11月,为全面贯彻落实《教育部、财政部关于实施高等学校本科教学质量与教学改革工程的意见》(教高[2007]1号)和广东省教育厅《关于高等学校
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
为了使运行在网格上的提供连续服务的长周期运行的应用能适应用户需求的变化,以及适应网格环境的动态变化,同时由于经济或安全性的原因,将系统停下来进行调整再重新启动是不
目的分析接受无创游离DNA检测的唐氏筛查高危孕妇染色体畸形潜在的漏诊风险。方法将5 921例唐氏筛查高危孕妇羊水穿刺羊水细胞的染色体核型分析结果,按照无创游离DNA的检测范