论文部分内容阅读
近年来,社交媒体的快速发展极大程度上影响了人们的日常生活和信息分享方式,特别是新浪微博这类社交媒体的兴起,使得传统人际交往从线下方式转移到线上,大量用户的使用,产生了丰富的用户行为数据,这些数据对用户推荐、电子商务研究起到强大的推动作用,微博数据社团挖掘就是其中一项重要工作。目前社团挖掘研究多应用于生物网络、社交网络数据,而这些方法更多用于挖掘基于拓扑结构、控制关系等的节点集合,但微博数据有着自己独特的属性和研究背景:微博数据中话题热度服从典型幂律分布,这使得传统方法应用于微博数据存在无法挖掘真正需要推荐的话题,这是目前微博网络社团挖掘的根本问题。由于热点话题对用户并不具有良好的区分度,在社团挖掘过程中会影响用户倾向于加入热点话题的所属社团,本文通过分析话题热度分布,发现大部分的热点话题并不能对用户的个性化区分产生积极影响,所以将TF-IDF引入用户-话题关系更新其权重,增加具有较高区分度的话题权重,这使得挖掘的社团更倾向于真正重要的话题及潜在推荐用户。本文根据微博网络用户兴趣和社交互动的多样性,在以用户和话题为结点的话题网络中挖掘重叠社团结构。由于该网络中同时存在用户-用户结构边和用户-话题属性边,引入重启随机游走算法将结构边与属性边统一起来,使得可以在异质网络中进行传统社团挖掘。为了对比分析加入不同信息对社团结构的影响,构建三个不同的话题网络,分别为结构边(用户关注与共同关注)和属性边、结构边(用户关注)和属性边(TF-IDF)、结构边(用户关注与共同关注)和属性边(TF-IDF),并在这三个网络上进行重叠社团挖掘,从不同角度分析得到的社团结构。在真实的微博数据上做了实验仿真,完成了分词、话题提取系统。实验结果表明用户倾向于基于不同的兴趣形成不同的社交圈,不同信息的引入也会对社团的形成产生影响,证实引入TF-IDF修正可以对社团挖掘产生有效的引导,该方法框架能够高效合理的刻画数据集包含的重叠社团结构,并具有良好的可解释性。