论文部分内容阅读
随着信息时代的高速发展,如何对已有大量自然语言文本进行挖掘,特别是对其按照设定的语义进行正确的归类,已经成为组织大量文本信息的一个关键问题,这就是文本挖掘中很重要的一类任务-文本分类。支持向量机是由Vapnik等人提出的一种学习技术,是借助于最优化方法解决机器学习问题的新工具。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。由于其具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛地研究并应用于文本分类、模式识别等领域。但支持向量机最初是针对二类分类提出的,如何将其扩展到多类并应用于文本分类是本文研究的重要内容。本文在对文本挖掘问题进行阐述的基础上,对支持向量机多类分类算法进行了深入的研究,在考察现有多分类SVM算法后,提出了一种基于二叉树基础的多类SVM改进算法,并把改进后的多类SVM用于文本挖掘中的文本分类。己经进行的主要研究工作如下:①研究了文本挖掘的常见技术,并以文本分类为主要任务,阐述了常用的文本分类算法。接下来对支持向量机原理进行了阐述,并对其应用于分类挖掘时的问题及解决方法做了简要分析。②支持向量机多类分类算法的研究,分析比较了目前存在的基于支持向量机的多类别分类方法,包括“一对多”方法、“一对一”方法、一次性求解方法、决策有向无环图方法、基于二叉树的支持向量机多类分类方法等,比较了它们的优缺点及性能。③重点研究了基于二叉树的多类SVM分类算法,详细地讨论了目前存在的几种二叉树多类SVM算法组合策略,在训练时间、决策方案等方面作了对比,并提出了一种基于二叉树多分类SVM树结构的改进策略,在研究过程中,通过数值实验对改进后的二叉树多类SVM与几种常见的多类SVM算法的分类效果进行了比较。④研究了基于二叉树多类SVM改进的文本分类器设计,针对传统二分类SVM文本分类器及多类SVM文本分类器的缺陷,利用本文中改进的多类SVM分类算法作为文本分类器核心算法,并在多类文本分类实验中进行验证。