论文部分内容阅读
随着Internet信息的日益膨胀,网络上的信息资源正在以指数级的速度增长,人们必须面对如何在广博的信息中发现和挖掘自己所需信息资源的问题。这就要求我们探索计算机自动文本分类的有效方法,使得分类的效率和准确率得到提高。然而由于训练语料数量有限而难以覆盖该类别所有的内容和随着时间的推移该类别又增加了许多新特征而使原有分类器过时,此时仍利用原有分类器来对当前待分类文本进行分类,可能会造成分类错误和分类遗漏等问题。反馈学习是针对信息变化动态调整完善分类模型行之有效的方法。因此,根据用户反馈对分类模型进行动态完善成为当前亟待解决的问题。本文在文本分类现状进行广泛研究地基础上,对文本分类的关键技术进行了归纳性总结,其中包括文本分词、文本表示、特征选取、特征权重计算、分类算法(特别是支持向量机分类器和K最邻近分类器)和分类性能评估。基于不同规模的文本集,比较性分析了信息增益、互信息、期望交叉熵、x~2-统计量和文本证据权五种特征选取方法对分类性能的影响;实验分析了文本特征选取算法对分类性能的影响、支持向量机分类器中核函数选择对分类性能的影响、特征向量维数对文本分类性能的影响和K最邻近分类器中K值的大小对分类性能的影响等。在对中文文本分类深入研究的基础上,又将相关反馈引入中文文本分类并详细分析了文本分类反馈学习的基本思想,对反馈学习的分类流程和反馈学习算法进行了深入探讨,构建了基于反馈学习的中文文本分类模型,阐述了中文文本分类反馈学习系统的结构框架和功能模块。最后,通过对训练集和非训练集分别进行的实验研究表明:反馈学习对分类性能的提高有明显的作用和用于学习的训练样本的质量对分类性能影响的重要性和用户参与反馈分类所带来的不确定性。“训练—分类—反馈”的中文文本分类反馈学习模式,是在传统“训练—分类”模式基础上增加反馈而形成的,那么该分类模式对训练不充分或由于更新较快而无法训练充分的分类模型具有完善作用,分类器也逐渐从训练不充分阶段趋于训练充分阶段,分类性能也将逐渐趋于稳定。因此,对中文文本分类反馈学习的研究具有较强理论意义和实践意义。