论文部分内容阅读
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法,进行了研究和探讨。当前的分类系统一般以孤立的词为特征单位,对孤立的词进行抽样、特征提取、获得权重,不进行语义的处理。这是由于进行语义处理需要大量的规则库和推理机,其实现方式复杂。针对这种情形,本文提出了一种将向量空间模型和语义相结合的方式,获取特征权重,进行训练文本训练,获得分类机的模式。阐述了模型的文本分类系统的结构,并给出了评估方法和实验结果,对比了各种分类方式下的效果。本文分以下几部分内容:一:本文在第一章讲述了分本分类系统当前背景情况,文本分类的几个基本步骤和常用方法。第二章讲述了统计学习的理论,从理论上进行了探讨。第三章介绍了向量空间模型和几种特征方法的获取,最后提出了新的特征获取方法。二:第四章讲述分类学习算法,以及针对本文提出的特征获取方法的分类学习方法。并且阐述了中文分类的评比标准。第五章介绍了针对本文提出的新方法建立模型的步骤和过程。三:第六章对实验结论进行阐述,并讲述了本文方法优点和缺点,以及未来研究可以做出的改进。