论文部分内容阅读
随着互联网的高速蓬勃发展,我们现在所处的时代是一个“信息大爆炸”的时代,在这每天瞬息万变浩瀚如海的信息中准确定位人们所需要的信息是一个极大的挑战。作为一种无监督的机器学习方法,聚类是解决海量网络信息的数据理解和信息挖掘的有效方法,聚类在人们的生活中有着很强的实用性,因而越来越成为人们研究的焦点。
针对传统的文本表示模型存在的高维稀疏问题,以及没有考虑自然语言的语法和语义信息,不能从语义上理解文档之间的内在关系,本文研究了一种基于LDA(Latent Dirichlet Allocation)主题模型的文本聚类方法,作为概率主题模型的经典代表,LDA模型是一个产生式全概率生成模型,LDA将每个文档看成是有多个浅层的主题混合组成的,每个文档在不同的主题上有着不同的分布,主题则是在词汇集上的一个多项式概率分布。相比传统的其它文本表示模型,LDA模型对文本有着更好的描述能力,符合实际的语义信息分析。通过LDA为语料集建模,原本是在高维稀疏的词空间上表达的文本形式,可以转而在一个低维的主题空间上来表达,并且融入了更多的语义信息。
本文利用Gibbs抽样方法进行间接参数推理来抽取LDA模型,获得文本-主题分布矩阵,以文本在不同主题上的分布情况,作为聚类的文本特征,使用k-means聚类算法,对文本的特征向量进行聚类。通过在搜狗语料集上的实验证明,基于LDA模型的聚类方法取得了良好的文本表示降维效果,并且融入了文本语义信息,有效的挖掘语义信息之间隐含的内在联系,使得聚类的结果更加实用化,相较于传统的基于向量空间模型的聚类方法,能有效提高文本聚类性能和效率,进而证明了概率主题模型的引入可以使得文本聚类取得更好的效果。