论文部分内容阅读
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一。本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施。具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等。通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性。本文详细讨论了相关改进措施的原理、实现算法、流程及