论文部分内容阅读
随着科学技术的进步,人类进入了大数据时代。随之产生了大量杂乱无序的网络信息,如何从这些信息中找到用户感兴趣的内容是文本挖掘研究领域的一个热点和难点。近年来,对于新闻热点话题发现的研究基本都依据向量空间模型(Vector Space Model,VSM)和LDA(Latent Dirichlet Allocation)模型进行,而如何提高聚类的效果一直是新闻话题发现研究领域存在的基本问题。所以本文将不同的模型-向量空间模型(VSM)、二元共现潜在语义向量空间模型(Co-occurrence Latent Semantic Vector Space Model,CLSVSM)和LDA主题模型应用到话题发现领域进行研究分析。首先,针对VSM模型存在的缺点,依据词性提取关键词来构造VSM模型。然后基于TF-IDF权值法利用K-means、凝聚式层次聚类方法进行聚类的分析比较。其次,二元CLSVSM模型挖掘了关键词之间的潜在的语义信息而比VSM模型的聚类精度更高。所以本文将二元CLSVSM模型应用到话题发现领域,从聚类效果和主题识别等方面与另外两种模型进行了对比讨论。最后,对本文的数据集-搜狗新闻语料库中的部分新闻文本进行实验,用F1值进行聚类评价。结果显示,在VSM模型中,结合词性提取关键词的方法的聚类效果更加的准确,但仍没有LDA主题模型和二元CLSVSM模型的聚类效果好。而且,LDA模型和二元CLSVSM模型的聚类质量不存在明显的差别。从而验证了结合词性构造VSM模型的有效性,以及基于二元CLSVSM模型进行话题发现研究的合理性和有效性。另外,结合三种模型的特点依据不同的方法分别提取聚类结果中每一类别的主题词,根据这些提取的主题词了解新闻文本所要表达的主要内容,并发现蕴含在这些新闻内容中的主要话题。