面向大数据集的社区发现算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:zero_alan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区发现,是指在社会网络中发现有用社区结构的过程。随着科技的发展,社会网络以多种形式影响着现实世界中各个领域的方方面面,如朋友关系网络、科学家文献引用网络以及信息通讯网络等等。作为社会网络的一个重要属性,社区结构的相关研究吸引了越来越多的来自社会学、生物信息学、计算机学等领域专家和学者的密切关注。到目前为止已经涌现出了GN、K-L、谱平分法等为代表的多种在社区发现的算法,其中的一些算法甚至已经在现实中得到了应用。  本文对社区发现算法,特别是在大数据集下社会网络中的社区发现方面做了许多改进。主要体现在如下三个方面:  第一,提出了一种使用PageRank值和结点度评估关键点的算法。首先提出在社会网络中,使用PageRank算法评估结点本身的重要性,然后结合Map-Reduce和空间压缩思想对PageRank改进,使其能够适应处理大数据集的情况。这样做即保证了算法的有效性,又可在较低的时间复杂度下完成任务。  第二,提出了一种改进的层次聚类算法,对社区网络关键点进行聚类。首先利用结点的连接作为其属性,将网络映射到n维空间中,并将结点间的相似性度量转换成经典的距离定义来计算。然后对模块度的计算进行改进,计算两个相近过程之间的模块度增益更能适应拥有小社区和离群点特征的关键点聚类。最后,利用改进的凝聚策略进行聚类,在实验中获得了较高准确性。  第三,在上述两个算法的基础之上,提出了一种改进的基于k-均值的社区发现算法。对于使用上述两种算法获得的初始簇,使用压缩技术和类B+树格式存储社区信息,有效降低结点匹配的时间复杂度和存储临时数据的空间复杂度。其中利用“维数灾难”特征估算社区信息,在处理大数据集时有较高准确性。该算法能够对社区进行微调,保证在小概率事件发生时,也能得到准确的社区划分结果。
其他文献
气象卫星对于现代社会是不可或缺的遥感工具,大多位于距地表3.6万公里的地球同步轨道。高质量气象产品的制作需要气象卫星图具有较高的几何精度。然而,同步气象卫星由于卫星测
在电信行业的不断发展的今天,如何挽留老客户并吸引新客户,是运营商面临的重要问题,营销案业务则属于运营商的稳定客户的主要手段之一,通过营销案的赠费吸引新老客户参与,通过营销
大数分解问题既是数学界重要的科学问题,也是RSA类型密码系统的基本问题。目前解决大数分解问题主要从改进大数分解算法和提高计算机的计算能力两方面进行研究。大数分解算法
我国的公安机关在多年的工作中,一方面不断推进信息化的建设,另一方面,其在公安工作的专门数据和社会信息方面都有了相当大规模的数据积累,使用数据挖掘技术来分析犯罪的各种
XML非完全结构查询是指满足用户在缺乏完整的XML文档结构信息情况下的查询需求,其主要面向缺少完整的结构信息说明以及异构环境下的查询需求。XML数据查询算法按照查询模式描
数字技术的飞速发展和各种功能强大的图像处理软件的出现,使得图像的编辑、修改变得越来越简单。正当人们在享受这些工具带来的方便和快乐的同时,对图像无意或故意的篡改也出现
在信息化时代的今天,电子邮件成为了我们日常生活中最重要的交流手段之一,与其相伴而来的垃圾邮件也在日益增长。传统的垃圾邮件过滤技术,如“黑白名单”、“关键字过滤”等方法
录井导向成果包括通过录井导向技术获得的数据和图形资料,是石油钻探开采中的重要资料,它集中反映了地下岩层性质和油田分布状况。随着计算机软件和互联网技术的不断发展,传
随着网络技术的迅速发展,数字签名技术在我们的社会经济和生活中得到了越来越广泛的应用。为了满足某些特殊环境的需求,产生了一些具有特殊性质的数字签名,群签名是其中有代
作为人工智能领域的一个热门研究问题,如何让计算机更加准确地了解人们的意图,一直是该领域研究的主要方向。目前手绘草图已经成为人机交互又一重要方式。针对目前跨领域手绘草