论文部分内容阅读
文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息。目前,文本自动分类是信息检索(Information Retrieval:IR)领域中最前沿的研究热点之一,国内外均有大量学者从事这方面的研究。 潜在语义索引模型(Latent Semantic Indexing:LSI),是近年来在信息检索领域中使用较多并较为有效的维数约简算法之一。应用LSI模型进行信息检索或文本分类,不是基于文档集中表层的词汇信息而是潜在语义结构,其性能比传统的基于向量空间模型(Vector Space Model:VSM)的方法要高出许多。 然而,LSI在降低维数的同时也会丢失一些关键信息。LSI基于文档的词信息来构建语义空间,得到的特征空间会保留原始文档矩阵中最主要的全局信息。但在某些情况下,一些对类别的正确识别非常重要的特征,因为放在全局下考虑显得不重要,而在维数约减的过程中被滤掉。 针对上述问题,在扩展LSI模型的基础上,我们提出了一种新的文本分类模型:潜在语义分类模型(Latent Semantic Classification:LSC)。本文较为详细地阐述了潜在语义分类模型的原理,并研究了LSC模型在特征维数变化下的分类性能问题和LSC模型与其它经典分类模型的性能比较问题。根据我们的实验结果,LSC模型具有良好的分类稳定性和准确度;在英文文本分类和中文文本分类的实验中,均表现出了比kNN分类器和SVM分类器更好的分类性能。 本文的创新之处包括: 1) 在扩展潜在语义索引模型的基础上,提出了一种新的文本分类模型:潜在语义分类模型(Latent Semantic Classification:LSC); 2) 验证和分析了LSC模型的英文文本和中文文本的分类性能,研究了LSC模型的分类稳定性以及与其它多种分类模型的性能比较问题。