论文部分内容阅读
随着计算机技术的快速发展和Internet的普及与应用,互联网上的电子文档信息急剧增加。面对如此海量的信息,人们迫切需要寻找一条能够快速、准确获得所需信息的途径。而文本自动分类作为信息过滤,信息检索,搜索引擎和数据挖掘等领域的技术基础,有着广泛的应用前景,因此成为人们研究的热点问题。
本文从文本预处理,文本的向量模型表示,特征降维方式和分类算法几个部分较系统的研究了文本自动分类。
首先,研究和探讨了文本自动分类中所涉及到的主要技术,包括文本预处理,文本表示模型,特征项权重方法,特征降维方式,分类算法和分类结果评估方法等。
其次,对几种常用的特征选择方法(文档频率DF,互信息MI,x<2>统计CHI,相关系数统计CC,信息增益IG)的优缺点进行了剖析,并通过实验比较了它们的分类性能,结果表明文档频率,X<2>统计,CC统计的分类性能相对较好,互信息效果较差,这是由于互信息没考虑到词频这个因素,导致它对低频词有偏重。基于以上考虑,本文提出了一种MI+DF组合的特征选择方法,利用DF过滤掉低于一定阈值的低频词,以消除MI对低频词的倚重,从而改进了传统的互信息法。实验表明这个组合的特征选择方法在分类精度上比互信息有了很大的提高。
再次,研究了三种常用的文本分类算法,即类中心向量法,贝叶斯统计法和K近邻法,分析了它们的分类思想和优缺点,并通过实验测试了它们的分类性能。实验结果表明K近邻法是一种分类精度较高,性能较好的算法。
最后,使用Java编程语言和Eelipse开发平台自行设计并实现了一个实用性较强的文本分类实验系统,能够建立分类模型,并打开已建立好的分类模型进行分类测试。利用该系统可以进行特征选择、分类算法研究,也可以对不同的语料库进行训练和测试,为今后的进一步研究提供了一个实验平台。