论文部分内容阅读
目前的索引词选择算法大多是基于词频的,没有利用训练样本中的类别信息,为此提出了一种新的基于类别的特征选择算法.该算法根据某个词是否存在于文档中导致该类文档相似度的区别,来确定该词区分不同文档的分辨力,以此分辨力作为选取关键词的重要度.以该算法为基础,设计了一个英文文本自动分类系统,并对该系统进行了测试和结果分析.