微博客话题检测的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:laoyoutiaosc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,越来越多的人利用互联网来发布和获取信息,互联网变成了人们生活中不可缺少的一部分。互联网信息的增加,使得获取和管理这些信息变得越来越困难了,导致信息超载。为了更好的获取和管理信息,人们提出了话题检测相关技术,其主要目的是研究在多媒体和跨语言信息流中自动检测出新话题的方法。而由于微博具有原创性、时效性、随意性,这使得传统的话题检测算法在微博话题讨论下处理效果并不理想。Latent Dirichlet Allocation(LDA)作为一种非监督的话题模型,在微博环境下,由于微博的时效性和突发性,LDA需要预先确定话题个数的缺点使得该模型在微博下难以适用。这一点使得LDA模型难以拟合微博的真实话题分布。另一方面,基于层次的聚类算法不需要事先确定类别个数,以及互信息作为一种文本特征选取方法具有良好的区分度。因此,在本论文中,我们提出了一种LDA模型与层次聚类算法相结合的话题检测算法。该算法解决了LDA模型需要预先设定热点话题个数的缺点,能动态根据各个话题词的相关性生成话题。为了能根据热点话题检索出相关的微博,我们使用了一种基于热点话题的词集合和微博特征的打分算法。该算法能有效地筛选出相关微博。基于以上的算法,我们构建了一个微博客的话题检测系统。此系统能够实时地检测每日热点话题,并且根据话题相关热点词以及微博的特征实现了根据话题的相关微博检索。此系统取得了良好的效果。
其他文献
无线传感器网络技术作为新兴技术之一,近年来得到了迅速发展。无线传感器网络主要由布置在监测区域中大量的廉价微型传感器节点组成,实时监测传感器网络中的环境信息,在当今军事
流媒体相关服务已经成为互联网中的主流应用,采用P2P技术的流媒体应用在提高流媒体系统的可扩展性、并发性和健壮性的同时,却面临着大量挤占骨干网络,资源安全和内容版权难以
面对海外设备厂商的市场垄断和技术封锁,自主研发半导体设备既是国内半导体设备市场的迫切需求,也是国家意志的体现。本文从控制程序设计、运动性能优化、控制功能升级以及通
随着分布式交互仿真技术的不断发展,HLA(HighLevelArchitecture)成为继DIS(Distributed Interactive Simulation)之后出现的新一代分布式交互仿真标准。为了满足大规模复杂系
近年来,互联网的整体规模越来越大,作为搜索引擎采集模块的爬虫的工作压力与日俱增,即使最专业的搜索引擎服务提供商,如谷歌、百度,也无法保证所有页面的时效性。而就单个页
在过去的四十年里,信息检索领域出现了很多经典的模型,诸如布尔模型、向量空间模型以及概率模型。随着Pnoet和Corft首次提出基于统计语言模型的检索模型,近十年来该模型得到了快
随着互联网技术的迅猛发展,网络信息过载问题越来越明显,如何快速地从海量信息中获取所需的部分,成为一个亟待解决的问题。RSS由于其自身的简洁性和通用性,改变了信息的获取
开放文档格式是基于XML纯文本的一种安全持久的文档格式,包含了字处理文档、电子表格、演示文稿、绘图等多种文档类型,具有跨平台的优势。由于开放文档格式规范非常繁杂,已经超
随着链接数据运动的开展,越来越多的RDF数据在Web上发布,并且其数量增长迅速。如何能够为这些大规模的RDF数据提供高效检索服务成为了目前的研究重点。提出了一种大规模RDF数据
小波分析是近30年来新兴的一种信号分析处理技术,在理论研究上具有重大的研究价值,并在众多工程技术上具有较为深远的影响。现在一维小波的理论研究越来越成熟,小波应用越来越广