论文部分内容阅读
随着Web2.0的高速发展及移动设备的大量普及,微博客(Microblog,简称微博)逐渐成为人们相互交流,获取世界各地奇闻异事的重要途径。越来越多的网民通过微博将情感和对某事件的看法表达出来,这样就形成了不同于传统新闻媒体的网络舆情。从微博文本中挖掘有效信息、提取热点对及时发现网络舆情有深刻意义。因为微博文本具有字数少、上下文联系不紧密的特点,在文本建模过程中会面临严重的数据稀疏问题,从而影响话题检测准确度,所以对微博短文本的热点话题检测技术的研究非常有必要。本文围绕微博短文本的建模以及话题检测做了相关研究,主要工作如下。(1)获取微博短文本以及预处理。为获取更具话题性的微博,首先提出利用网络爬虫技术,爬取具有影响力的大V账号微博来获取数据,与通过官方平台提供的接口获取数据相比,网络爬虫更简便且能获取更多的数据;随后筛除内容少的微博文本以减少冗余;最后利用结巴分词对微博短文本分词,并进—步去除其中的停用词。(2)改进主题建模方法。针对微博短文本建立文本模型时面临的数据稀疏问题以及扩充外部语料难的问题,提出了将特征词输入Word2vec的Skip-gram模型以训练词向量,得到与特征词语义相近的词扩充入短文本,再采用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)对扩充后的文本建立模型以提取主题的方法。该方法既解决了 LDA用于短文本时会面临的严重的稀疏问题,又保留了 LDA能解决语义之间的关系的优势,最终有效提高了微博短文本建模的准确度。(3)对热点话题检测相关算法进行改进。针对传统的Single-Pass聚类算法计算量大、输入的文档需要和之前的文本逐—计算相似度的缺点,提出了改进的Single-Pass聚类算法。在LDA模型输出的文档-主题矩阵中选取质心向量作为话题中心,后输入的文本只需与话题中心作相似度比较。该算法有效地提高了聚类速度。通过改进的Single-Pass聚类对文档-主题矩阵进行聚类后得到初步的热点话题,再利用凝聚式层次聚类(Hierarchical Agglomerative Clustering,HAC)合并话题得到凝聚度更高的热点话题。通过上述研究,本文完成了基于Word2vec的微博短文本热点话题检测技术研究。详细描述了采集微博数据、建立相关文本模型、话题检测三大部分,并针对短文本数据稀疏问题,提出基于Word2vec扩充短文本的LDA算法,同时采用改进的Single-Pass聚类与HAC算法相结合对话题进行合并。实验证明,与传统的热点话题检测算法相比,本文提出的算法有效提高了微博短文本热点话题的提取精确度。