论文部分内容阅读
随着World Wide Web的迅猛发展,网上文本信息资源以指数级的速度增长,如何快速有效地将文本按其内容进行分门别类的整理,便于人们利用这些海量文本,变得越来越重要和困难。因此,研究文本自动分类技术具有很重要的现实意义。本文在广泛研究现有文本自动分类方法的基础上,发现人工神经网络具有很强的自学习性、自组织性、联想记忆功能和推理意识等,在文本自动分类上有着独特的优势。目前较多地应用于文本自动分类领域的人工神经网络方法是BP(Back Propagate,反向传播)网络,但它存在着局部极小和收敛速度慢等缺点,在一定程度上影响了自动分类的效果。RBF(Radial Basis Function,径向基函数)网络与BP网络相比,具有较高的运算速度,特别是它的较强的非线性映射能力,能以任意精度全局逼近一个非线性函数,使其在很多领域得到了广泛的应用。基于以上原因,笔者设计和实现了基于RBF网络的中文文本自动分类。本方法的主要设计思路是:首先,从已有文本中随机抽取部分文档,并按事先设定好的类别归档建立训练语料库。接着建立切分词典对训练语料库进行词条切分,去掉停用词和标点符号,并进行词频统计。然后计算每个词条与各个类的互信息(即:词条与各个类的相关程度),以“类”为单位,抽取其中一部分词条作为某类特征词条。根据每个特征词条与每个类的相关程度(即:互信息)进行编码,对每个文本中包含的所有特征词条进行编码,进而对文本样本进行编码,使其成为计算机程序可以识别的训练输入向量。最后建立RBF神经网络文本分类器并初始化网络。用训练集训练RBF文本分类器,直至整个网络的训练满足一定的收敛条件。至此,基于RBF网络的中文文本自动分类器完成建立。本文设计和实现的基于RBF网络的中文文本自动分类取得了较好的分类效果,在选择不同的基函数半径(r)的情况下,分类准确率一直能保持在85%附近的较高水平。总之,通过对RBF网络在中文文本自动分类中的应用效果和应用潜力的初步研究,发现RBF网络在逼近能力、学习速度和分类能力方面的表现均优于BP网络,是一种值得继续研究和探讨的文本自动分类方法。