基于网络结构随机游走及节点属性信息熵的社会网络社区发现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:huangmajun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WEB2.0概念的不断深入,大量用户交互式社会媒体如微博,Facebook、twitter、论坛,社交网络,社会新闻,维基等不断涌现,产生了基于这些共享社会媒体平台的新型社会网络。社区发现是复杂网络研究的前提和重要任务。大量实证研究表明在复杂网络中普遍存在社区结构。社区结构内部节点之间联系紧密,而与外部节点联系稀疏。在社会网络中,社区结构信息能够帮助社会学者更好地理解社会群体;帮助商家发现潜在客户群体,进行个性化群体推荐,从而带来巨大的商业价值。因此,从复杂的社会网络中发现社区具有十分重大的理论和实际意义。社区发现通常可以从两方面出发:网络结构和节点属性。本文提出了一种社会网络社区发现的新算法(简称SARIE算法)。这个算法既考虑了网络结构的宏观性又考虑了其节点属性的微观性。通过基于网络结构的随机游走得到一系列的节点路径,每一条节点路径被当做一个可能的社区结构(本文称之为候选社区)。通过考虑节点属性信息熵来获得每一个候选社区的信息熵,根据信息熵阈值条件从候选社区中筛选出优质社区结构。优质社区须满足的条件是:社区结构中至少存在一个这样的属性,它的值对该社区的大部分成员都是相同的。一个属性的属性值所呈现出来的多样性由属性信息熵来度量,而社区信息熵则定义为该社区的最小属性信息熵。筛选优质社区就是筛选出社区信息熵不大于信息熵阈值的社区结构。算法的最后一步是合并相似社区。本文通过实验验证了SARIE算法的优越性和稳定性。采用常用的准确率和召回率的调和平均分数F1作为评价算法的指标。在Facebook数据集上得到的F1分数为0.656,与之前在同样的数据集上进行社区发现得到的F1分数最好的结果0.462相比,SARIE算法性能提高了41.99%。最后通过重复实验验证了其稳定性。SARIE算法十分简单,而且可以很容易地被并行化,因此能够应用于规模较大的社会网络;此外,SARIE算法能够发现重叠社区,同时支持网络节点多属性值的情况。算法最终不仅能够得到社区结构,同时给出了社区标签,有利于结果的直接应用。
其他文献
传统的博物馆往往门前冷落车马稀,究其原因是因为博物馆以“物”为中心,而忽视了博物馆观众的主体地位,形成了一种静态的教育服务模式。然而随着博物馆的发展,人们物质文化生
慈善事业是国家治理体系中的有机组成部分,其在整合社会资源、援助物质资金等方面发挥着重要作用。公开透明机制的构建是慈善组织摆脱危机、重塑公信力的基础,是慈善事业得以
<正>中国(上海)自由贸易试验区(以下简称"上海自贸区")建设一年多以来,配套的法律改革也在紧锣密鼓地展开。有自贸区"基本法"之称的《中国(上海)自由贸易试验区条例》(下简称
<正> 我们以凉血解毒,燥湿清热,活血消肿为治则,制成痤疮颗粒,进行了临床观察和相关动物实验,现报告如下。1 临床资料治疗组240例,年龄16~34岁,平均21.94±3.91岁;病程1周~18年
<正>我在2002年3月21日向安徽黄山种蜂场买两只中蜂王。6月中旬收到蜂王后就从蜂箱里提出正在出房的蛹脾,把蜂全部扫下,1只王,3张蛹脾,2张蜜粉脾,扣好蜂王,放在屋内比较温暖
<正>随着现代科学的发展,音乐对健康的影响逐渐受到人们的关注。音乐作为科学的治疗方法已用于医疗、教育、功能训练等领域。实践证明,音乐在健康与教育中的运用是一种行之有
道路作为人为的物质形态,因附加了人的社会性而使其社会与文化内涵丰富。同样,当前的筑路狂潮与人文视角下的道路研究稀缺之间的现实矛盾决定了道路研究的必要性和可能性。因
目的:分析多层螺旋CT成像特点,尤其是后处理技术在成像中的应用,评估在危急值报告中的价值。方法:随机抽取在医院行多层螺旋CT检查的600例危急值报告病例资料,回顾性分析多层
<正>【裁判要旨】销售型电信诈骗在外观上与虚假宣传、产品质量责任等普通民事欺诈行为具有相似性,容易被混淆。在销售型电信诈骗的交易过程中,被告人明知其产品根本不具有买
<正>2018.11.27北京由清华大学建筑学院、《城市环境设计》(UED)杂志社、OPEN建筑事务所联合主办的"UED115期新刊发布会——OPEN建筑事务所:建筑何为"于在清华大学建筑学院王