基于随机游走的微博数据社团挖掘与分析

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:tanshug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,社交媒体的快速发展极大程度上影响了人们的日常生活和信息分享方式,特别是新浪微博这类社交媒体的兴起,使得传统人际交往从线下方式转移到线上,大量用户的使用,产生了丰富的用户行为数据,这些数据对用户推荐、电子商务研究起到强大的推动作用,微博数据社团挖掘就是其中一项重要工作。目前社团挖掘研究多应用于生物网络、社交网络数据,而这些方法更多用于挖掘基于拓扑结构、控制关系等的节点集合,但微博数据有着自己独特的属性和研究背景:微博数据中话题热度服从典型幂律分布,这使得传统方法应用于微博数据存在无法挖掘真正需要推荐的话题,这是目前微博网络社团挖掘的根本问题。由于热点话题对用户并不具有良好的区分度,在社团挖掘过程中会影响用户倾向于加入热点话题的所属社团,本文通过分析话题热度分布,发现大部分的热点话题并不能对用户的个性化区分产生积极影响,所以将TF-IDF引入用户-话题关系更新其权重,增加具有较高区分度的话题权重,这使得挖掘的社团更倾向于真正重要的话题及潜在推荐用户。本文根据微博网络用户兴趣和社交互动的多样性,在以用户和话题为结点的话题网络中挖掘重叠社团结构。由于该网络中同时存在用户-用户结构边和用户-话题属性边,引入重启随机游走算法将结构边与属性边统一起来,使得可以在异质网络中进行传统社团挖掘。为了对比分析加入不同信息对社团结构的影响,构建三个不同的话题网络,分别为结构边(用户关注与共同关注)和属性边、结构边(用户关注)和属性边(TF-IDF)、结构边(用户关注与共同关注)和属性边(TF-IDF),并在这三个网络上进行重叠社团挖掘,从不同角度分析得到的社团结构。在真实的微博数据上做了实验仿真,完成了分词、话题提取系统。实验结果表明用户倾向于基于不同的兴趣形成不同的社交圈,不同信息的引入也会对社团的形成产生影响,证实引入TF-IDF修正可以对社团挖掘产生有效的引导,该方法框架能够高效合理的刻画数据集包含的重叠社团结构,并具有良好的可解释性。
其他文献
当前,随着普适计算时代的到来,从小到儿童玩具大到国家安全,计算机系统已经渗透到社会生活的各个角落。人们的日常生活也越来越依赖于计算机系统,如家庭电脑,娱乐设施,交通运输,通信
随着信息技术的发展,嵌入式技术在航空领域中得到了广泛应用。航空领域的嵌入式测控系统具有可靠性高、实时响应能力强、体积小以及通信接口复杂等特点,给系统的开发带来困难
软件在线演化技术正成为当今软件维护领域的一个重要研究课题。而软件的动态更新技术动态软件更新方法由于其更新粒度小、更新成本低、操作灵活等优点,成为软件在线演化技术
优化问题广泛存在于现实生活中,大多数问题是非线性的,传统数学演算方式无法得到最优目标。为此,元启发式算法被广泛尝试。在应用领域中,最新的趋势是使用群智能优化算法。群智能
在现代工业生产系统和其他领域,信息技术的发展为各行各业注入了新鲜的血液,提供了新的活力和驱动力,可以说IT软件系统无处不在,无所不能,已经成为了支撑社会运转的重要平台
企业信息化发展到一定程度,在应用如ERP、SCM、CRM等业务系统过程中,产生并积累了各种大量数据,不同应用所形成的数据更容易形成信息孤岛。如何充分利用不同业务部门的详尽数
模型驱动体系架构(MDA)是一种新的软件开发框架,它的目标是把业务和应用逻辑与底层的平台技术分离。统一建模语言(UML)是MDA的核心标准之一,用于描述计算无关模型(CIM)、平台无
随着互联网的爆炸性增长,Web已经发展成为站点遍布全球的巨大信息服务网络,根据CNNIC统计,截至2008年底,仅中国网页总数就超过160亿个,较2007年增长90%。网页的增长速度与网
在电子商务的发展进程中,如何准确地理解用户访问网站的行为是十分必要和有意义的,Web日志挖掘是解决该问题的重要研究方法之一。发现用户的兴趣访问模式是Web日志挖掘的一个
随着互联网的飞速发展,信息指数级的增长给人们快速有效获得有用信息带来了巨大的挑战,网站是比网页更高层次的抽象,网站聚类作为web挖掘的重要分支已经得到越来越多的关注,