论文部分内容阅读
利用TF和DF的组合进行特征选择,及利用TF-IDF算法计算权重,是文本分类中常用的算法。但当训练集较小时,此特征选择算法会将一些特征区分能力强的低频词过滤掉,并直接影响特征词的权重。本文提出一种基于汉语框架网络(以下简称CFN)的特征选择和计算权重的算法。实验表明:算法可使分类的准确率达到67.3%,较传统算法有很大提高。也说明了该算法能够满足小训练集环境下对文本分类准确率的要求。