论文部分内容阅读
统计学习理论(Statistical Learning Theory,SLT)是一种基于小样本的机器学习理论。V.Vapnik等人从六十年代开始致力于此方面研究。随着其理论的不断发展和成熟,到九十年代中期已基本形成了一套比较完整的理论体系。以这一理论为基础,V.Vapnik提出了一种新的通用学习方法——支撑向量机(Support Vector Machine,SVM)。
支撑向量机是在统计学习理论的基础上发展起来的一种新型机器学习方法,根据结构风险最小化(Structure Risk Minimization,SRM)原则来构造学习机器,在最小化训练错误的同时尽量提高学习机的泛化能力;同时,由于支撑向量机学习算法是一个凸二次规划问题,因此所求得的解一定是全局最优解。它所拥有的高泛化能力和全局最优解是其他基于经验风险最小化原则的学习算法如神经网络学习算法等所不能比拟的。
支撑向量机是一种两类的分类器,如何将它推广到多类分类是一个很值得研究的问题。目前,国内外研究人员已经提出的多种推广策略均是对两分类SVM分类器的直接扩展和组合,研究的重点集中在寻求恰当的两分类器组合策略以消除不可分区域,提高训练、测试精度以及加快训练、测试速度。
本文在对已有的多类分类问题的SVM算法的研究分析基础上,提出了一种基于二叉树的支撑向量机多类分类方法,通过引入谱系聚类法进行聚类。实验结果表明,采用该方法进行多类分类,分类性能的提高是明显的。