论文部分内容阅读
机器学习的重要基础是传统的统计学,其前提是有足够多的样本,但当样本数目有限时难以取得理想的效果。统计学习理论(Statistical Learning Theory或SLT)是由Vapnik等人提出的一种小样本统计理论,着重研究小样本情况下的统计规律及学习方法。SLT为机器学习问题建立了一个较好的理论框架,也发展出一种通用学习算法——支持向量机(Support Vector Machines或SVM),能够较好地解决小样本学习问题。正因为SVM有较为完备的理论基础和较好的学习性能,使得它成为继神经网络研究之后的研究热点。尽管SVM的性能在许多实际问题中得到了验证,但其核参数的选择依然是支持向量机研究领域的一个待解决问题。通常情况下,SVM算法中核参数是事先确定的。本文中最小VC维分类器的非线性约束规划问题中包含了RBF核参数,可以在算法执行中自适应地确定。本文旨在找到一个快速求解最小VC维分类器的方法。本文从统计学习理论出发,介绍了控制学习过程的推广能力、结构风险最小化原则和支持向量机。对支持向量机的各种实现算法进行分析和总结,特别详细介绍了后面我们用到的Osuna分解方法的基本思想和实现思路。简要地介绍了与本文有关的三种优化算法:梯度法、罚函数法以及复形调优法。在介绍了最小VC维分类器的基本原理基础上,本文提出求解最小VC维分类器的基本算法,其核心是用梯度法结合罚函数法求得非线性约束规划的一个初始可行解,在此基础上利用复形调优法求解最小VC维分类器的非线性约束规划问题。试验证明,基本算法能较好的对数据进行分类。但随着样本数量的增加,该求解方法处理样本的速度会越来越慢,以至最终无法处理。针对求解最小VC维分类器基本算法中存在的缺陷,本文根据Osuna分解算法的思想。提出了一种求解最小VC维分类器的改进算法。即将大规模非线性约束规划问题分解成一系列小规模非线性约束规划问题进行求解。通过试验证明引入分解算法后的改进算法有较好的分类性能和计算速度。改进算法和常用SVM算法之一的SVMlight算法比较可得:在分类性能上改进方法和SVMlight相当,在分类速度上较SVMlight更快。