面向用户兴趣与社区关系的微博话题检测方法

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:zhao2345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,网络媒体已经成为人们日常生活中不可或缺的一种传播媒介。其中微博作为新兴典型代表之一,以极快的速度影响着社会传播格局。用户可以通过微博随时、随地的更新个人状态和参与讨论自己喜爱或关心的话题,使得微博成为社会热点话题产生的聚集地。对微博进行话题检测,不仅能向用户提供热点话题信息,还能为政府部门在突发事件监测、舆情分析等方面提供强有力的数据支持,因此研究如何从海量的微博信息中检测出热门话题具有十分重要的现实意义。微博文本相对于传统文本来说差距较大,除了大量的省略、指代及主观性的个性化语言之外,还有文本较短、话题离散性强、实时性和互动性等特点。因而,传统的文本话题检测方法不能直接应用于微博,本文在研究过程中结合微博自身特性,提出了一套基于用户兴趣与社区关系的微博话题检测方法。首先,在本文的话题检测算法中引入用户社区的概念,把用户之间的关注关系量化为微博用户关系网,然后对该复杂网络做社区划分、对社区添加兴趣标签,并在社区内部检测话题。针对微博文本的特征稀疏与噪声过大、过杂等问题,本文提出了一种融合词重要度与ε近邻图的微博话题检测方法。该方法以词重要度为入手点,抽取词重要度较大的k个词作为重要词集,计算微博间的相似性,采用图切割的方法将微博分为一个个微博簇,最后根据词重要度求话题主题词。在真实微博数据集上的实验结果显示,该算法能够有效去除微博噪声,快速准确找到社区内热点话题。针对微博话题的热度、突发性以及时间特性等特征,提出了一种融合词重要度与时间窗口的微博话题检测方法。该方法首先按照时间窗口对微博文本进行划分,然后根据词的热度以及突发度得到时间窗口内词的重要度,并抽取重要度较大的k个词作为主题词候选词。其次,以主题词候选词为基础构建词共现网络,并利用社区划分算法对该词共现网络进行社区划分,最后得到话题并依据词重要度进行重要度排行。在真实微博数据集上的实验结果显示,该算法能够快速有效检测出时间窗口内的话题,并对话题重要度、热度以及突发度等指标进行评估,能够对话题重要度随时间变化情况做即时追踪。
其他文献
本文主要研究的是一种基于ARM的电能实时监测系统,该电能质量监测系统对电能质量进行远程监控以及事故预测,为改善电能的质量,制定相应电能计划提供有力依据。本文首先介绍了电能质量的研究背景和意义,分析了国内外电能质量监测系统的研究现状以及未来趋势。1、根据电能质量监测系统装置的市场调研以及设计要求,提出了一种基于嵌入式ARM和linux的电能质量监测系统,监测系统的控制模块以ARM为核心,其上运行嵌入
我们生活在大数据的时代!在当今瞬息万变的商业社会,这些海量数据的快速分析和有效挖掘对商业决策制定提供了重要的依据,有时可能决定企业的命运。2006年云计算技术提出后,很
随着因特网的飞速发展,网络信息的含量急剧增长,网络信息获取的方式也多种多样。如何准确、高效地获取有价值信息成为研究人员和用户日益关注的话题。现有独立搜索引擎存在数
随着智能化程度的逐步深入,公共场合的安全形势日益严峻,如何确保公共安全成为人们关心和瞩目的焦点,而有效的身份识别技术则是确保公共安全的关键。生物特征以其安全、稳定
闪电通道的提取,是分析雷电通道特征的前提,对于雷电预警、防雷减灾和经济建设具有十分重要的意义。而视网膜血管的提取,是分析视网膜血管形态的前提,对于糖尿病、脑血管硬化
云计算作为一种新兴的网络服务方式随着网络的带宽的不断增长得到越来越广泛的关注和应用,DaaS(Database as a Service)模型是云存储中的一种新型数据库应用体系,DaaS为其客户提
人脸面部表情能够从侧面展现人心以状态,体现出人的行为信息,为我们研究人的心里活动提供了可靠的依据,人脸表情识别是建立在人脸面部丰富感情信息基础上发展起了的一门学科
随着互联网的普及,Web已经应用的各个领域,但针对于Web应用程序漏洞的攻击也越来越多,其危害程度也越来越大,虽然采取了多层的安全措施,但应用程序本身的漏洞,这些措施都无能为力,及
演变是未来通信网络发展的主旋律,未来通信网络将会演变成有线网络和无线网络融合的全IP通信网。未来无线通信系统将会把各种提供不同业务的无线接入网络连接到基于IP分组的
随着计算机科学技术的迅速发展以及互联网的普及应用,每天生活中都产生了大量的多媒体数据,这些数据大多数是以图片、视频等形式呈现的。面对如此庞大的且快速增长的多媒体数