论文部分内容阅读
本文分析了文本自动分类的关键理论及技术,给出一个基于向量空间模型的文本自动分类系统的框架模型,重点描述此系统的实现算法。自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。针对分词过程中存在的歧义和未登录词识别问题,本文提出了高频最大交集型歧义切分表与主题句相结合的分词算法;研究了文本分类学习中的特征提取,主要集中在大幅度降维的评估函数,因为高维的特征集对分类学习未必全是重要的和有用的,就各种特征评估函数对分类效果的影响进行了分析比较,从理论上分析了产生差异的原因;以文档频率为基础提出特征提取算法,在此基础上逐步加入词的位置、词性、词义以及采用组合评估函数等方法进行了改进:然后通过试验测试证明了改进算法的有效性。