论文部分内容阅读
随着互联网络的高速发展和信息量猛增,传统的人工方式已经无法有效地处理海量的文本信息。使用计算技术实现文本的自动分类,可以提高文本信息管理的效率,节省大量的人力物力资源,因此文本分类的研究受到了广泛的关注,是一个十分有意义的研究课题。中心法具有分类准确率高,编程简单易于实现等优点,近年来相关学者提出了诸多中心法的改进算法。可多数的改进中心法是将类别中心的计算转化为优化问题,再应用最优化技术进行求解。虽然提高了分类性能,但是却延长了算法的运行时间。本文针对中心法运行时间较长的缺陷,提出了基于降维中心法并将其应用于文本分类。本文算法基于精炼文本特征,剔除多余的冗余信息的思路,将对文本特征进行降维的思想引入到中心法中,以求获得性能和效率上的双重提升。本文主要工作列举如下:1.本文对文本分类的国内外研究现状进行了概述,分析了基于向量空间模型的文本表示方法以及它对分类效果的影响,讨论了对特征向量空间进行降维的必要性和基本思想。2.为了解决特征数较多造成中心法运行时间较长的问题,本文提出了基于线性降维的中心文本分类算法LDA-CC和PCA-CC,基于流形降维的中心文本分类算法LLE-CC、ISOMAP-CC和基于语义降维的中心文本分类算法LSI-CC。其中,基于线性的降维方法使用的是主成分分析和线性判别分析两种方法。在基于流形降维的方法中,本文使用的是最具有代表性的在局部使用线性插入的流形降维法和拉普拉斯特征映射流形降维法。而基于语义的降维方法选用的则是潜在语义索引的方法,并对每种方法的理论进行了分析,针对每种方法的特点将之嵌入到中心法的分类过程中,理论上实现了基于线性的降维中心法。3.在两个标准数据集上对本文提出的LDA-CC、LLE-CC、ISOMAP-CC和LSI-CC算法进行了实验评测,并详细地比较了在每一个数据集上分别选用不同维数进行降维时对中心分类算法所带来的影响。实验分析表明,本文算法在提高中心文本分类算法执行速度的同时,还可以有效地提高其分类性能并降低内存消耗。