论文部分内容阅读
随着海量信息以及新信息量的爆炸式增长,使得用户难以在海量的信息中获取自己所需要的信息;文本分类在较大程度上解决信息杂乱无章的问题,对文本进行分门别类,可以使用户快速有效的获取到自己所需要的信息。文本分类技术是数据挖掘的一个主要分支,是基于自然语言处理技术和机器学习算法的一个典型的具体应用,研究各种高效的分类算法在文本分类中的应用是目前的重要研究课题之一,也是现实中亟待解决问题。本文首先阐述了文本分类的研究状况以及目前存在的问题,介绍了文本分类的一般处理过程,探讨了文本分类的相关技术,重点分析和研究了文本预处理、本表示、特征选择等重要步骤以及常用的文本分类算法。本文较为系统的阐述了人工鱼群算法、BP神经网络的基本原理,并分别就人工鱼群算法、BP神经网络在文本分类中的问题加以探讨,并指出传统BP神经网络文本分类器的缺陷与不足。BP神经网络相对于其它算法有更强的稳定性和抗干扰性,在文本分类中效果很好,但是仍有学习效率低,收敛速度不够快,容易陷入局部极值等缺点,人工鱼群算法具有很好的克服局部极值,获得全局极值的寻优能力,对初值和参数要求不高,对启发式函数的要求并不敏感,在解决较为复杂的组合优化问题中表现出良好的性能。所以我们结合了人工鱼群算法和BP神经网络的各自优点,用工鱼群算法来优化BP神经网络文本分类器,构建出人工鱼群-BP神经网络分类器。在此基础上我们设计和实现了一个基于人工鱼群-BP神经网络算法的文本分类系统,并对实验结果进行对比分析,验证本文算法在文本分类中有较好的分类效果。