基于RBF网络的中文文本自动分类的研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:flyingmomo1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着World Wide Web的迅猛发展,网上文本信息资源以指数级的速度增长,如何快速有效地将文本按其内容进行分门别类的整理,便于人们利用这些海量文本,变得越来越重要和困难。因此,研究文本自动分类技术具有很重要的现实意义。本文在广泛研究现有文本自动分类方法的基础上,发现人工神经网络具有很强的自学习性、自组织性、联想记忆功能和推理意识等,在文本自动分类上有着独特的优势。目前较多地应用于文本自动分类领域的人工神经网络方法是BP(Back Propagate,反向传播)网络,但它存在着局部极小和收敛速度慢等缺点,在一定程度上影响了自动分类的效果。RBF(Radial Basis Function,径向基函数)网络与BP网络相比,具有较高的运算速度,特别是它的较强的非线性映射能力,能以任意精度全局逼近一个非线性函数,使其在很多领域得到了广泛的应用。基于以上原因,笔者设计和实现了基于RBF网络的中文文本自动分类。本方法的主要设计思路是:首先,从已有文本中随机抽取部分文档,并按事先设定好的类别归档建立训练语料库。接着建立切分词典对训练语料库进行词条切分,去掉停用词和标点符号,并进行词频统计。然后计算每个词条与各个类的互信息(即:词条与各个类的相关程度),以“类”为单位,抽取其中一部分词条作为某类特征词条。根据每个特征词条与每个类的相关程度(即:互信息)进行编码,对每个文本中包含的所有特征词条进行编码,进而对文本样本进行编码,使其成为计算机程序可以识别的训练输入向量。最后建立RBF神经网络文本分类器并初始化网络。用训练集训练RBF文本分类器,直至整个网络的训练满足一定的收敛条件。至此,基于RBF网络的中文文本自动分类器完成建立。本文设计和实现的基于RBF网络的中文文本自动分类取得了较好的分类效果,在选择不同的基函数半径(r)的情况下,分类准确率一直能保持在85%附近的较高水平。总之,通过对RBF网络在中文文本自动分类中的应用效果和应用潜力的初步研究,发现RBF网络在逼近能力、学习速度和分类能力方面的表现均优于BP网络,是一种值得继续研究和探讨的文本自动分类方法。
其他文献
随着互联网的飞速发展,接入网络的用户数大幅度增加了,现有网络向下一代互联网升级的需要越来越迫切,以IPv6(Internet Protocol version 6)为核心的下一代互联网得到了广泛的关
学位
伴随着3G时代的到来,互联网和移动通信服务发展趋于交融,移动通信技术的不断更新也将推动全球移动商务应用市场的快速发展。面对用户的需求,移动商务服务内容也越来越呈现多样化
本论文主要研究决策树的算法及其在市场细分中应用。利用数据挖掘技术、挖掘市场细分数据,进行客户需求分析,发现市场细分需求规律,利于发现新的市场机会,开拓新的市场机会。
在当今时代,手机已经成了不可或缺的通讯工具了,不再像从前那样遥不可及,而是越来越多地走进普通老百姓的工作和生活中。无论是大街上,还是商场里,或者公司里,用手机通信的数
Leland和Paxson等通过对局域网和广域网的流量进行测量和分析,均发现具有统计上的自相似性。传统的网络流量模型在描述实际的网络业务时,忽视了这个重要特性。与传统的流量模
本文的研究内容是作者硕士学习期间参与完成的国家“863”资助项目“用于彩屏手机的液晶显示驱动控制芯片开发“的一部分,作者深入研究并设计完成了单片集成的TFT-LCD驱动控制
支持向量机是自上世纪90年代提出的一种基于统计学习理论的机器学习算法,与传统统计学研究样本产生的规律或样本数目趋于无穷大时的渐进性能不同,它更注重研究样本本身所提供的
随着XML文档在网络上的应用不断广泛,如何有效地对一个XML文档进行多查询处理这一问题变得更加广泛和迫在眉睫。然而以往的查询处理方法都没有考虑到XML文档自身的冗余性,事实
近些年来,随着网络的飞速发展,网络攻击频繁发生,攻击方式更是层出不穷。分布式拒绝服务攻击DDoS是互联网环境下最具有破坏力的一种攻击方式,尤其以SYN Flood攻击方式为代表,它利