论文部分内容阅读
伴随着互联网和移动通信技术的飞速发展,社交网络平台吸引了大量的活跃用户,用户间的社会关系形成了错综复杂的网络图。如何挖掘网络图中的潜在信息已经成为当下研究的一个热点。微博用户社会关系挖掘是其中的一个重要研究方向。它通过评估微博用户之间潜在关系强度,找到目标用户的潜在关系圈,进而可以实现用户追踪、链接预测、好友推荐等。本文在对基于离线微博数据的社会关系挖掘算法进行了研究的基础上,提出了一种新的挖掘模型以更为全面科学地评估用户之间的关系,进而找出用户的关系圈。论文的主要工作包括以下几个方面:首先对微博社会关系挖掘的研究现状进行了较为详细的研究,包括社会关系指标建立以及评估模型两个主要方面。同时总结了当前研究方法的不足,包括:现有模型的评价指标种类较少,模型设计时忽视了微博网络的部分特征,指标融合时采用简单加权求和,没有考虑到不同用户的行为偏好对融合评估的影响。进而,本文提出了基于多维度用户相似度信息融合的自适应微博用户社会关系离线挖掘算法。该算法从虚拟微博图、POI数据、虚拟用户图、用户-微博二部图、背景数据等五个角度入手,提出了相应的用户关系评价子算法,并提出了一种基于最大似然度的微博用户社会关系评价模型(Decision Algorithm Model based on Maximum Likelihood,DAMML)对五个指标的用户关系评价信息进行综合决策。通过分析该综合决策信息,可以找出目标用户的潜在关系圈。本文提出的五个用户关系评价子算法如下:●结合虚拟微博图的用户兴趣关系评价算法(Interests of Users and Virtual Microblog Graph,IUVMG),该算法使用LDA模型,将用户评论、点赞等行为信息添加到用户兴趣特征矩阵中,提升用户兴趣关系评价的准确性;·考虑行政区域划分与签到信息的用户活跃位置相似度评价算法(Administrative Region and User Check-in Information, ARUCI),该算法由用户活跃驻地提取、考虑相遇时伺与好友影响的活跃位置相似度两部分组成,解决了微博网络部分用户签到数据稀疏的问题;·结合图出入度的共同好友及扩展好友的用户关系评价算法(Out-in Degree and Mutual Friends, ODMF),该算法考虑用户节点的出入度,提出虚拟用户的概念,将算法推广到了二级好友;●考虑交互行为倾向的用户交互紧密度算法(Tendency of User Inter Behavior,TUIB),该算法解决了微博用户间交互行为的非对等性问题;●用户背景属性的用户关系评价算法(User Background Information,UBI),该算法使用主成分分析法提取用户背景属性的主成分,降低了属性间相关性对评价结果的影响。最后,本文自主开发了一套新浪微博爬虫,抓取了大量微博数据,利用该数据对本文提出的算法进行了测试,并与经典算法进行了比较。实验结果验证了本文提出的算法具有较高的有效性与准确性。利用提出的模型,论文还设计并实现了一套基于B/S架构的微博用户社会关系离线挖掘系统。