论文部分内容阅读
微博客作为一种新兴的网络多媒体形式,在最近两年里得到了迅速发展与广泛应用,已经成为普通民众分享、关注、获取自己所关心信息的主要平台。然而微博的信息量太大,导致用户根本看不过来,无法及时知道微博客中的热点话题。而且在这些热点消息中,也存在一些暴力的、反动的、虚假的信息内容,这些信息会对国家安全、民众生命财产安全、企业信誉等构成威胁。热点话题发现与跟踪的研究可以较好的解决这些问题。 通过对热点话题的发现与跟踪,可以将微博数据组织为话题,以简洁概括的方式呈现给用户,用户便可以即时的了解到微博中的热点和舆论主题。本文在研究了微博客数据采集技术,热点话题发现相关的文本聚类算法、文本表示方法、文本相似度计算方法以及话题跟踪方法的基础上,提出了基于图结构模型的双层聚类算法,并在此基础上设计和实现了微博客热点话题发现与跟踪系统。本文的主要工作如下: 1)实现以Twitter为研究对象的微博客数据采集。分析了微博客数据采集使用到的关键技术:登陆授权、数据获取与解析等,使用定向垂直采集、元搜索主题采集、广度采集、高时效性采集等采集策略保证采集数据的有效性和广泛性。针对Twitter数据量庞大并且访问频率受限的问题,采用基于消息总线机制的分布式并行处理技术保证数据采集的快速性。 2)研究结合微博客特点的热点话题发现与跟踪技术。使用基于图结构的文本表示方法和相似性计算方法,对微博客数据进行双层聚类得到话题,然后根据热度计算获得热点话题并选取关键词对话题簇进行描述。在话题发现的基础上提出了适用于微博客的自适应话题跟踪算法。实验表明基于图结构的双层聚类算法有着不错的聚类效果,能够有效的进行话题发现。 3)设计并实现了微博客热点话题发现与跟踪系统。该系统分为微博客数据采集模块、数据预处理模块、热点话题发现模块、热点话题跟踪模块、热点话题展示模块,具有微博客数据采集、数据存储、数据预处理、热点话题发现、话题跟踪、热点话题展示等功能。该系统具有较好的检测效果和良好的用户体验,适用于实际的微博客热点话题发现与跟踪。