论文部分内容阅读
挖掘网络内部隐含的社区结构是复杂网络分析、图数据挖掘等领域中充满挑战的问题之一。近年来,随着社交网络的不断兴起,在社交网络上进行社区发现也成为了准确理解用户行为、分析网络群体特性的关键。由于社区这一概念本身没有一个定量的形式化表示,不同的研究者们往往从不同的角度,采用不同的数据结构,设计不同的算法来解决这一问题。无论是从对数据集的适应性,还是所产生的社区特性来看,在实际的应用中我们往往会陷入方法选择的困境。针对以上问题,本文以社区发现通用框架为核心,围绕对不同类别方法的统一评测、有效改进、算法推荐等问题展开研究。本文的主要工作包括:1.提出了社区发现的通用框架Co DFM,能够有效地用于对不同方法的理解、分析与比较。通过深入社区的本质属性与形成过程,首先对这一问题的基本概念进行了有效的抽象,由此提出通用计算过程中的两个关键因子,即近邻相似度和启发式结构。进而,通过对通用计算过程的归纳与模块化分解,提出了面向社区发现的标准通用算法。最后,对当前最具代表性的10种社区发现算法进行了统一的框架映射和实现,验证了所提框架的合理性及有效性。2.基于该框架,从时间效率、社区质量、社区敏感性、社区覆盖率、社区分布等多个方面对主流的社区发现算法进行了全面深入的评测与分析。在此过程中,在不同算法的偏好及适用性等方面得到了一系列相关结论,便于我们根据不同的数据集、应用场景选择合适的算法,从而挖掘出网络中最有效的社区结构。3.基于统一的框架映射和实现,对现有算法的缺陷和不足进行分析与研究,提出了两种有效的改进方式。基于关键因子替换和关键步骤变换,分别提出了改进的基于矩阵块分解的稠密子图抽取算法MB-DSGE*和改进的标签传播算法LPA*,并通过大量真实及合成数据集上的实验验证了基于框架的改进算法能够明显提升所产生社区的质量。4.作为上述理论研究的扩展和可视化,设计并实现了一套面向社区发现的原型系统Co DAR,该系统集成了基于框架实现的算法库,能够对不同算法的实时运行状态进行追踪,并对网络结构的动态变化予以展现。此外,该系统通过建立多维度的综合评价模型,对社区质量进行合理的评价,同时将产生最优社区结构的算法推荐给用户,为用户、研究者、产品开发人员提供了良好的分析平台。