论文部分内容阅读
由于人类社会的不断进步和互联网的快速发展,人们的日常生活和工作都离不开互联网。互联网为人们带来的便捷性使得人们可以直接通过互联网做很多日常生活中的事,如支付、购物、交朋友等。新浪微博、推特等社交网络平台已是人们互相交流、获取资料信息的重要途径。人们可以运用这些平台分享自己日常生活中的点滴,发表自己的观点等。由于社交网络平台使用者的日益增长,每天都会有海量的数据在平台产生,这使我们很自然地进入到大数据时代。如何利用海量的数据来解决我们日常生活中现存的问题是非常重要的。微博是一个开放的实时的在线社交网络平台,它是基于用户及用户关系的平台并允许人们发表日常生活中的事件、分享个人心情等。在大量的微博用户中,一些微博用户事实上具有相似的兴趣爱好。因此,将微博中具有相似兴趣爱好的微博用户聚集到一起具有非常重要的意义,如广告精准投放、好友推荐等。社区是指由一些节点组成的一个群体,社区发现则是探索这样一个具有特殊关系的群体。现有的社区发现方法都从社区结构角度进行分析。随着时间的变化,社区并不是固定不变的。因此,对社区演化的研究是必不可少的。现存的社区演化方法主要研究社区的“分裂”、“合并”、“缩小”等演化行为。对于微博社交网络,我们不仅可以从社区结构角度对社区进行分析,还可以从微博内容角度提取微博用户兴趣特征进行分析。而对于微博社区的演化,现存的一些社区演化方法只是分析了社区显式的演化行为,忽略了微博社区的隐式演化行为。基于现存的社区发现方法和社区演化方法的不足之处,本文提出了基于结构和引力双内聚的社区发现和演化算法。本研究工作的主要研究内容包含以下几点:1.根据带有时间序列的微博数据给出微博社交网络的相关定义,包括:静态微博社交网络的定义、动态微博社交网络的定义、微博社区的定义、社区演化的定义以及社区演化行为的定义等。利用自然语言处理技术在微博数据集上提取微博用户兴趣特征。重构复杂网络中的引力关系,结合提取的微博用户兴趣特征,构造微博社交网络中的引力关系。根据新定义的微博社交网络和微博社交网络中的引力关系构建微博社交网络图。2.采用随机游走方法结合博弈理论来发现微博用户引力倾向关系。在构建的微博社交网络图和发现的微博用户引力倾向关系的基础上,找出微博社交网络中的基本节点并提出微博社区发现算法来发现微博社交网络中的社区。3.在已发现的t时间点的社区基础上,利用t+1时间点的微博数据找出相邻时间序列微博社交网络的变化。根据t时间点发现的微博社区和相邻时间段里发生变化的微博用户及其关系提出微博社区演化算法来发现t+1时间点的社区。通过定义t时间点和t+1时间点社区之间的相互转化概率,提出微博社交演化行为提取算法来提取微博社交网络中社区的演化行为。4.进行实验对本文提出的算法进行对比评估。实验包括三个部分:微博社区发现算法的对比与评估、微博社区演化算法的对比与评估、算法中涉及到的参数的最优取值范围研究。实验中得出的结果用表和图进行表示,并对其进行分析。实验结果表明本文提出的算法在结构方面和其它基准方法都具有较好的性能,而在引力方面则具有更好的性能。