论文部分内容阅读
随着近年来互联网技术和信息技术的飞速发展,人们可获取的数据量迅速增长。如何快速、准确、全面地从浩瀚的信息资源中寻找到所要的狭小领域内的相关信息内容,已经成为了一项十分有意义的课题。文本分类技术作为解决这一问题的关键技术之一,也成为了研究的热点。文本分类是一个复杂的系统工程,一般包括文本预处理、特征降维、特征加权、分类器训练和分类器性能评估等几个过程。本文在对这些过程进行详细了解和研究的基础之上,重点探讨了特征降维和特征加权过程。对高维的特征集进行降维是文本分类过程中的一个重要环节,它不仅可以提高分类器的速度,节省存储空间,还能够过滤一些无关属性,减少无关信息对文本分类过程的干扰,从而提高文本分类的精度和防止过拟合。特征降维可以分为两类:特征抽取和特征提取。特征提取因其方法简单、计算速度快,适合用来处理大规模的文本数据,在文本分类中得到了广泛的应用。本文详细研究了目前常用的特征提取方法,包括文档频数、互信息、信息增益、期望交叉熵、χ2统计量和文本证据权。本文分析了这些方法的各自的特点,针对这些方法的不足之处,结合类间集中度、类内分散度和类内平均频度,提出了一种新的特征提取方法。该方法突出了特征与文本类别的正相关关系,避免了考虑负相关情况所带来的干扰,综合考虑了特征和类别之间的联系,以及特征在类内出现的平均频度,是一种简单有效的特征提取方法。特征加权过程,能够改善文本集合在向量空间中的分布状态,使得同类文本的空间结构更加紧凑,异类文本的空间结构更加松散,从而简化了从文本到类别的映射关系,有利于提高文本分类器的分类性能。本文研究了经典的特征加权方法——TF-IDF,分析了它由于未考虑特征项在类间和类内的分布情况而导致对稀有特征赋予较大权值,而对类别区分贡献大的特征赋予较小权值的不足之处。进而结合了类间集中度、类内分散度,提出一种TF-IDF公式的改进形式,来弥补原始TF-IDF方法的缺陷。本文在中文文本分类实验平台上,通过多组对比实验来考察本文提出的新的特征提取方法和改进的TF-IDF方法的有效性。实验结果使用查全率、查准率和F1值等多项评价指标来衡量。结果表明新的特征提取方法能够取得比其他常见特征提取方法更优的降维效果,同时改进的TF-IDF特征加权方法的效果也要好于传统的TF-IDF方法。