支持向量机分类方法及其在文本分类中的应用研究

被引量 : 56次 | 上传用户:wanwan1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势,因此,支持向量机非常适用于文本分类问题,在文本分类中具有很大的应用潜力。但是,同时,文本分类也给支持向量机提出了许多富有挑战性的课题。例如,文本分类具有类别和样本数目多、噪音多等特点,支持向量机用于文本分类时存在训练和分类速度较慢等缺点。本文主要针对支持向量机在文本分类等实际应用中存在的问题进行深入研究,主要工作如下: 1、支持向量机是针对两类分类问题提出的,如何将其有效地推广到多类分类仍是一个尚未完全解决的问题。分析了现有支持向量机多类分类方法的特点,并给出了一种半模糊核聚类算法,在此基础上,根据树型支持向量机的特性,提出了一种基于半模糊核聚类的树型支持向量机多类分类方法。该方法基于半模糊核聚类算法挖掘不同类别之间的衔接和离散信息,设计树型支持向量机的树型结构,克服其差错积累问题。实验表明,与其它支持向量机多类分类方法相比,该方法具有较高的分类精度和训练速度,提高了支持向量机在多类分类问题中的应用效果。 2、针对标准支持向量机对噪音敏感,分类时倾向于样本数目较多的类别的问题,给出一种模糊支持向量机的推广模型,并在此基础上,结合近似支持向量机的优势,提出了一种支持向量机组合分类方法。该方法首先采用近似支持向量机快速地去除非支持向量、减少训练样本数目、确定样本权值和模型参数,然后在样本数目较少的训练集上,依据选择好的模型参数和样本权值训练模糊支持向量机的推广模型。实验表明,该方法能有效确定样本权值,减少训练时间,并克服野值点和类别训练样本数目不均衡对分类器的不利影响。 3、通常情况下,支持向量的数目越多,支持向量机的分类速度越慢,如何缩减支持向量集合、提高支持向量机的分类速度是支持向量机的重要研究内容之一。在分析了现有支持向量集合缩减方法的基础上,提出了一种基于虚样本与支持向量回归的支持向量集合缩减方法。该方法是根据支持向量集合和支持向量回归方法的特性,对
其他文献
第二课堂是第一课堂的延伸和补充,是高校人才培养的重要组成部分.本文对当前高校实施第二课堂的现状进行了分析,首先阐述了“卓越计划”实施背景下高校第二课堂的建设内容,然
公平是一个社会和谐的基本要求,社会公平对我国构建社会主义和谐社会具有基础性、深远性影响。教育公平是社会公平的重要内容,是社会公平在教育领域的延伸,也是一直被视为实
本论文介绍了汽车起重机的下料成形件(板材类零件)的生产运作管理方法,从生产运作系统设计、生产计划组织、产品质量保证体系和精益生产等方面提供了一套汽车起重机板材类零
口碑是一种非常重要的,同时也是没有被很好理解的营销要素,随着互联网技术的广泛应用,企业越来越认识到理解消费者之间口碑行为的重要性,很多学者也呼吁加强对口碑的重视,因
地理信息系统(GIS)由于其可视化的功能,已经成为计算机信息系统的发展趋势。通过对GIS系统模式和GIS集成模式的剖析,本文对新建住宅小区管理系统工程的架构进行了系统分析,设
保障、提高农村妇女的政治参与程度是在农村落实男女平等基本国策的必然要求,是进一步深化村民自治的客观需要。十年来,民政部门一直把促进农村妇女参与村民自治作为的一项重
目的探讨角色扮演教学法在全科医师培训中的应用效果。方法采用随机分组方式将我院2015级全科医师培训学员分为实验组和对照组。对照组采用传统教学方法,实验组采用角色扮演
含重金属废水来源不仅来自金属冶炼、加工及电渡等工矿企业产生,其次农业活动也会产生,这些废水若直接排入水体,不仅影响水体自净、污染环境,从而引发人体生命健康安全问题;
隐喻是一种语言现象,也是一种认知方式,是人们思维和行为的表现。隐喻是建立在相似性基础之上的。人们对隐喻的理解,是依据共同的体验和感知寻找相似性,并依据相关语境和文化
网络政治舆论已经成为现实政治生活中不可忽视的舆论力量。由于互联网的独特传播特点和优势,网络政治舆论传播分割了报刊、广播、电视等传统媒体的政治舆论影响力,并对原有政