论文部分内容阅读
文本的向量表示方法对文本主题聚合、聚类、信息检索及推荐系统等研究具有重要意义。在传统的文本表示模型中,向量空间模型(VSM)相对简单,且应用较为广泛。但该模型假设特征词相互独立,这在一定程度上会影响聚类效果。而共现潜在语义向量空间模型(CLSVSM)则是在VSM基础上,利用共现分析深入挖掘文本信息中特征词之间的潜在语义关系,并利用共现相对强度来估计这种关系,最终估计文献与特征词的相似性。通过实验可证明CLSVSM聚类精度要高于VSM。本文以共现潜在语义向量空间模型为基础,对模型进行拓展及降维研究。基于布尔权重的局限,利用词频统计量重新估计模型,构建词频共现潜在语义向量空间模型(FCLSVSM);为使CLSVSM能充分提取文献的潜在语义信息,进一步引入三元共现,通过研究三元共现表示,三元共现频次及三元共现相对强度的计算,最终建立三元共现潜在语义向量空间模型(T-CLSVSM)。但随着文本数量的增加,表达模型的维度会越来越高,计算量也会相应增加,最终导致模型应用的边际效应降低。因此考虑利用惩罚性矩阵分解(PMD)方法进行降维优化,具体方法包括:计算K-秩近似及提取核心特征词。实验中,选择扩展数据集验证FCLSVSM,利用基础数据集来验证T-CLSVSM及PMD算法,并利用公共数据集来检验模型的适用范围。最终得到如下结论:选择词频统计量来估计模型,可以显著提高聚类效果。在所选评价指标(纯度,熵值,F1值)下,T-CLSVSM的聚类精度要优于VSM与CLSVSM。PMD算法中,提取核心特征词与计算K-秩近似两种方法均可有效实现降维,与基于CLSVSM构建的语义核函数(CLSVSMK)相比,聚类精度更高,降维效果更好。本文对于共现潜在语义向量空间模型作出改进,包括基于词频信息的模型重建,三元共现潜在语义向量空间模型的构建以及利用PMD算法对模型进行降维。最终证明,改进后的模型可以提高聚类精度,降低计算复杂度,节约成本。模型的改进为文本表示提供了新的选择,同时也为文献聚合中的相似性度量、文献检索、分类等研究提供了参考。