论文部分内容阅读
随着信息技术的发展,互联网已成为人们获取信息的主要途径,如何快速的在众多信息资源中找到自己需要的信息,成为当前一个亟待解决的问题。互联网上的信息大部分是文本数据,而文本自动分类可以有效的组织和管理文本数据,因此具有重要的研究意义和应用价值。 本文详细分析了中文文本分类的主要过程,包括文本预处理、文本表示、特征选择、分类器构建和分类器性能评估。在文本表示方面,本文重点介绍了向量空间模型,在特征选择方面,本文给出了互信息、信息增益、?2统计量等常用的特征选择方法,分类算法是分类系统的核心,本文介绍了决策树算法、K-邻近分类算法、朴素贝叶斯分类算法和支持向量机分类算法。 本文重点分析了K-邻近分类算法和朴素贝叶斯算法,并使用C++实现了基于K-邻近分类算法的分类器、基于多重伯努利模型的分类器和基于多项式模型的分类器。对于K-邻近分类器,本文讨论了如何确定K值,如何根据最近的K个文档决定测试文档类别等相关问题。对于朴素贝叶斯分类算法,本文引入了平滑技术,防止计算概率时出现零概率的情况。为了提高分类的效率和精度,本文还实现了基于文档频率的特征选取方法。最终将各功能模块结合在一起构成了一个完整的中文文本分类系统。 通过对系统的大量对比实验表明:K-邻近分类算法在 K-值等于5时具有最好的分类性能,并随着K值增加,性能在降低;多项式模型相比较其他两个分类模型在文本分类训练语料上具有最好的分类性能;伯努利模型的分类性能在这三者中最差。