基于模糊支持向量机的多类文本分类方法研究

来源 :兰州理工大学 | 被引量 : 5次 | 上传用户:passcardaj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本分类具有类别和样本数目多、噪音多、各类别样本数目不均衡等特点,将模糊支持向量机方法用于多类文本分类中,提出一种基于模糊支持向量机与决策树的文本分类器的构建方法。该方法是在考虑了样本与类中心之间距离关系的同时,根据传统支持向量机中包含支持向量且平行于分类面的平面构建切球,以此来确定类中各个样本之间的关系,由样本点与球的位置关系计算其隶属度,合理地区分有效样本、噪音和孤立点样本,并将该方法与二叉决策树方法相结合,实现多类文本分类。重点对模糊支持向量机中隶属度函数的确定方法进行深入的分析与研究,针对目前模糊支持向量机方法中,一般使用样本与类中心之间的距离关系构建隶属度函数的不足,提出了一种改进的有效地反映样本不确定性的隶属度确定方法——基于双超球的隶属度函数。该方法通过样本的类中心与传统支持向量机的分类面构建两个超球,根据样本点与这两个超球的位置关系计算其隶属度,并且将隶属度与样本到类中心的距离之间表示成非线性关系。最后,通过在Ruters—21578文档集上的实验,证明了这两种方法能切实有效的解决文本分类问题,与传统支持向量机方法和基于样本与类中心点的线性距离的隶属度函数模糊支持向量机分类方法相比,基于模糊支持向量机与决策树的文本分类器能够有效区分有效样本和噪音、孤立点样本,有较好的分类效果。在使用的三种隶属度函数中,基于双超球的模糊支持向量机方法抗噪性能最好,分类性能最强。
其他文献
无线传感器网络是由大量低成本、低功耗、具备感知、数据处理、存储和无线通信能力的微型传感器节点通过自组织方式形成的网络。它可被应用到军事战场、环境监测、医疗、智能
随着数字化时代的到来,在人们的日常生活和科学研究中,越来越多的传统业务开始数字化、网络化,促使数据爆炸式地增长,海量数据存储的需求越来越迫切。   源源不断的数据流导致
室内是人们生活最为密切的地方,室内定位算法具有很大的实用价值,但影响室内环境的因素复杂,具有独特性,因此高性价比以及高精度的定位算法实现起来有较大的困难。现阶段出现
无线传感器网络综合了传感器技术、分布式信息处理技术和无线通信技术,能够协作地完成实时监测、感知和采集监测对象的信息,并对其进行处理,传送到需要信息的用户。能量有效性是
人脸姿态估计是判断静态图像或者视频序列中的人脸在三维空间中的姿态的过程。人脸姿态估计作为计算机视觉领域的一个重要研究课题,在人机交互、智能视频监控、虚拟现实以及
主机切换系统是一种重要的多设备集中控制管理解决方案,它通过提供统一的管理控制台访问和控制不同的设备,从而提高运行效率,降低运营成本。虚拟磁盘技术是存储虚拟化技术的
随着嵌入式技术的发展,嵌入式产品已经和我们的生活息息相关。然而,在信息时代的今天,黑客攻击事件频频发生,如何保护嵌入式系统中的机密数据不被入侵已成为引起广大科研人员
无线射频识别技术(Radio Frequency Identification,RFID)是一种在多个领域广泛使用的非接触自动识别技术。典型的RFID系统由读写器、电子标签组成。与条形码和磁卡相比,RFID
我国的高速公路经过二十年左右的建设,已经初具规模,然而,随着高速公路的延长,对高速公路路权、产权的保护,尤其是对高速公路广告控制区进行有效的监管,日益成为高速公路监管
基于内容的图像检索技术利用低层视觉特征描述图像内容,由于视觉特征与人对图像的理解之间存在很大差异,而且其通用搜索面向所有的用户,包罗万象的结果并不能满足用户精确搜