基于多类支持向量机的文本分类研究

被引量 : 0次 | 上传用户:tiantianweb9737l
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的高速发展,如何对已有大量自然语言文本进行挖掘,特别是对其按照设定的语义进行正确的归类,已经成为组织大量文本信息的一个关键问题,这就是文本挖掘中很重要的一类任务-文本分类。支持向量机是由Vapnik等人提出的一种学习技术,是借助于最优化方法解决机器学习问题的新工具。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。由于其具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛地研究并应用于文本分类、模式识别等领域。但支持向量机最初是针对二类分类提出的,如何将其扩展到多类并应用于文本分类是本文研究的重要内容。本文在对文本挖掘问题进行阐述的基础上,对支持向量机多类分类算法进行了深入的研究,在考察现有多分类SVM算法后,提出了一种基于二叉树基础的多类SVM改进算法,并把改进后的多类SVM用于文本挖掘中的文本分类。己经进行的主要研究工作如下:①研究了文本挖掘的常见技术,并以文本分类为主要任务,阐述了常用的文本分类算法。接下来对支持向量机原理进行了阐述,并对其应用于分类挖掘时的问题及解决方法做了简要分析。②支持向量机多类分类算法的研究,分析比较了目前存在的基于支持向量机的多类别分类方法,包括“一对多”方法、“一对一”方法、一次性求解方法、决策有向无环图方法、基于二叉树的支持向量机多类分类方法等,比较了它们的优缺点及性能。③重点研究了基于二叉树的多类SVM分类算法,详细地讨论了目前存在的几种二叉树多类SVM算法组合策略,在训练时间、决策方案等方面作了对比,并提出了一种基于二叉树多分类SVM树结构的改进策略,在研究过程中,通过数值实验对改进后的二叉树多类SVM与几种常见的多类SVM算法的分类效果进行了比较。④研究了基于二叉树多类SVM改进的文本分类器设计,针对传统二分类SVM文本分类器及多类SVM文本分类器的缺陷,利用本文中改进的多类SVM分类算法作为文本分类器核心算法,并在多类文本分类实验中进行验证。
其他文献
目的:观察腰痛汤治疗慢性腰肌劳损的临床疗效。方法:将80例慢性腰肌劳损患者随机分为两组各40例。治疗组口服腰痛汤治疗,对照组用消炎痛治疗,观察两组治疗两个疗程后的综合疗效及
精准扶贫作为扶贫攻坚进入新的历史阶段后的重大战略性调整,必须通过更广泛、更深层的机制创新实现扶贫方式和手段的彻底转换。"探索集体资产收益扶贫"是中央推进精准扶贫的
英语正在成为世界上第一种名副其实的通用语言。但是 ,我们应该认识到英语的广泛运用是霸权的产物 ,它是二十世纪随着英美的强盛而通行天下的。英语的持续“霸权”对非英语国
词汇是语言最重要的要素之一。词汇教学是英语教学的重要组成部分。探索有效的词汇呈现方式,以及研究如何通过有效的呈现方式提高学生词汇记忆效果,具有重要的现实意义。本文
目的护理干预对提高老年冠心病患者服药依从性的影响。方法自设服药依从性问卷,得出的65例服药依从性差的患者,后随访失败5例,将最后的60例患者分为对照组和实验组。对照组采
对水敏性储层进行压裂改造,一般只能使用油基或醇基压裂液。由于二者的成本较高,而且使用不安全,因此受到限制。清洁压裂液无残渣,摩阻低、流变性能好、携砂能力强,能充分保
陶行知的教育思想继古今之美,兼纳中西之长,简约精妙,自成一家。他的"生活教育"、"德育教育"、"创造教育"等教育思想,在时代的今天仍然具有很强的现实意义。本文旨在从教科书
进入21世纪以来,随着经济全球化的不断深化,国际投资、服务贸易和知识产权等领域的合作与交流不断深入,劳务输出已成为发展中国家参与经济全球化的重要手段。中国对外劳务输
对产学研协同创新的动力成因进行研究,并深入研究影响产学研协同创新的各个因素,同时确定其中的关键因素,即内部动力因素和外部动力因素,并完善各个因素共同作用的过程。在可
“个人主义”一词源于欧洲,但在不同国家,不同历史时期,往往具有不同的涵义。美国个人主义在西方个人主义的流派中具有代表性,成为20世纪以来西方资本主义意识形态的核心思想和主