多视图微博话题检测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:godmouse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的蓬勃发展,社会化媒体越来越受到广大网民的日益关注。近年来,微博作为一种新型的社会化媒体,已经得到了人们的广泛关注,许多国内外的重大事件都是通过它在第一时间传播给人们。海量的微博短文本数据中蕴含着大量有价值的热点话题,自动检测这些话题可以更好为人们提供更多全方位的动态消息。然而,传统的话题检测算法已经无法满足这种新型社会化媒体的短文本数据。针对此问题,本论文主要研究了一种基于多视图技术的微博话题检测方法,该方法充分考虑了微博文档之间的语义关系和社会化关系,具有较好的话题检测效果。论文的主要工作和创新点如下。首先,本文提出了一种采用微博间语义关系和社会关系的多视图微博话题检测方法。在表征微博文之间关系的时候,本文不但利用了传统文本语义关系,也利用了博文之间社会关系,从而弥补了语义关系的不足。博文间的语义关系和社会关系可以构成一个多视图,然后我们采用基于谱聚类的多视图聚类算法对微博博文进行聚类,并从话题簇中提取出具有代表性的关键词。文章通过实验验证了多视图聚类比任意一种单视图聚类有着更好的聚类效果。其次,为了更准确地表征博文间语义关系,本文提出了一种新的基于后缀树的文档相似度度量算法。在该方法中,首先通过后缀树检测出文档间的共同短语,由于短语比单个词的随机组合有着更丰富的语义信息,然后对短语中的词进行额外加权,因而能更准确的度量文档之间的相似度。实验表明通过对短语进行加权,可以更好的度量博文之间的语义关系。再次,在表征微博博文间社会化关系时,我们提出了采用微博中的社会化关系符号如#Mention、@评论等来衡量它们之间的关系。实验表明它是一种非常有效的衡量博文间关系的方式。最后,设计和实现了一个基于多视图的微博话题检测软件系统。本系统为采用多视图技术进行话题检测提供了一个工具,同时也为后续研究和算法实现提供了一个基础平台。
其他文献
学位
近年来,煤矿开采仍在快速进行,然而,井下瓦斯、甲烷等的高浓度以及挖掘设备的不完善,导致仍存在不少的安全事故。随着党中央、国务院的高度关注,并极力要求创建“六大系统”来提高
学位
在多媒体技术广泛应用的今天,VOIP技术得到了极大的发展,并表现出巨大潜力,尤其是国内市场。国内运营商提升宽带速度和增加WIFI热点,将把VOIP发展带入全新的发展阶段。目前,VOIP领
随着信息技术的不断发展,信息之间的交互变得日益频繁,使得信息的安全性成为大家的关注点。数字签名技术由于能够提供身份认证、数据完整性、可靠性以及匿名性等方面的应用,
学位
三支决策理论符合人们做决策时的一贯行为。它具有三种决策规则,即接受、拒绝和不承诺。三支决策理论自提出以来,就被应用于不确定、不完整信息的分析判别中。在医疗诊断中,
数字影像设备、网络技术的发展使互联网图像数量呈爆炸式增长,Flickr、Zooomr等社交网站的出现为海量图像资源管理提供了新思路。这类网站的一个重要特点是用户可以手工对共
无线传感器网络是由大量具备传感、数据处理以及无线通信能力的低成本、低功耗微型传感器节点以自组织的方式形成的网络。传感器节点自身特点及特殊的应用环境使得无线传感器
带性能约束布局问题有着较为广泛的应用背景。如钢铁企业的板材切割(最大成材率约束),印刷电路板(PCB)的布局设计(最小权距积之和约束),航天器舱的布局方案设计(最小不平衡量约