论文部分内容阅读
随着互联网的发展以及Web2.0的出现,微博(Microblog)逐渐成为人们相互沟通、发表言论以及获取新闻的重要工具,因此及时发现微博中热点话题具有重要的现实意义。但是微博文本内容短小、特征词稀疏以及规模庞大,传统的文本处理方法并不适合对其处理。因此,如何快速、准确地发现微博热点话题已成为当前自然语言处理的一个研究热点。本文主要工作包括以下三个方面:(1)针对微博数据文本内容短小、特征词稀疏、数据噪声大以及文档数据规模庞大等特征,本文利用具有优秀降维能力的LDA主题模型对微博数据建模,其不仅有效解决了文本相似性计算的复杂度,还避免了传统文本建模方法存在的数据稀疏性问题。(2)基于划分的K-means具有算法简单、收敛速度快等优点,但它对初始聚类中心数K非常敏感。而基于层次聚类的CURE算法对孤立点不敏感,擅长处理非球型或大小不均的簇,且准确度高。综合CURE算法的高准确性和K-means算法高效率的特点,本文采用了CURE和K-means结合的两阶段聚类策略,这样既缓和了K-means算法对初始点敏感的问题,又不损失聚类的效率。(3)深入研究MapReduce编程模型和K-means聚类算法,针对K-means聚类算法特点,给出了MapReduce编程模型实现K-means聚类算法的方法,对海量微博短文本数据进行快速聚类。经实验测试,明显改善了聚类效率。结合以上的研究方法,完成了微博热点话题发现系统的设计与实现,该系统集成了数据获取与预处理模块、热点话题发现模块和数据展示模块三大块。