论文部分内容阅读
随着互联网技术的快速发展,虚拟社会网络逐渐成为了人们关注的焦点。人们可以在虚拟社会平台中更加方便地认识好友和相互交流,从而促进了真实社会关系的发展,使得人类的活动与互联网的应用融为一体。而微博作为一种新兴的网络信息交互平台,其优越独特的设计理念使得用户之间的交流更加及时、方便与畅通,庞大的用户群体以及海量的文本信息蕴含着极大的价值,在不同的研究领域有着重大的意义。本文对微博网络中的社区发现和结构洞挖掘的主要研究如下:首先,阐述了社会网络的基本概念及主要特征,对网络分析的相关理论和技术进行分析,即文本的预处理、文本的表示模型以及常用的聚类算法等,同时,对文本的语义分析理论进行研究,了解特征空间降维的必要性以及隐含语义分析的基本流程。其次,分析微博网络的主要特点及其交流机制,并采用微博开放平台实现了数据的获取。同时,微博网络呈现出多维度的结构特征,而传统平面结构的网络模型不能体现不同主题领域下的权威度,因此,提出了基于主题的多层次网络模型,从不同的层次建立不同主题的用户交互网络图,以充分挖掘出网络中的社会群体。再次,分析微博网络的社区特征,并在传统的社区发现算法基础上,考虑到社区的主题特性,采用了词共现度的事件划分以及隐含语义的进展分析,实现基于主题相似性的社区发现。同时,从社区的网络结构出发,提出了基于最大基数搜索的Greedy算法以及基于权重平衡的WEBA算法,实现了网络社区结构的合理划分。最后,阐述社会网络结构洞节点的基本概念,以及其在社会资产以及不同领域中的重要作用,通过PageRank算法对网络节点的重要度做出了重要评价。并在此基础上,从网络的社区结构和流网络的信息扩散角度出发,提出基于舆论领袖的HIS算法和基于最小割集的MaxD算法,实现了结构洞节点的挖掘。