论文部分内容阅读
统计学习理论为研究小样本情况下机器学习问题提供了有力的理论基础。它使用结构风险最小化原则,综合了统计学习、机器学习和神经网络等方面技术,在最小化经验风险的同时,有效地提高了算法泛化能力。支持向量机是在该理论体系下产生的一种新的、非常有力的机器学习方法。它较好地解决了以往困扰很多学习方法的小样本、非线性、过学习、高维数、局部极小点等实际问题,具有良好的潜在应用价值和发展前景。目前,统计学习理论和支持向量机作为小样本学习的最佳理论,受到越来越广泛的重视,成为人工智能和机器学习领域新的研究热点。本文综述了支持向量机的研究现状,针对目前存在的几个问题:不平衡调整问题、大样本减样和除噪问题、两种支持向量算法即Support Vector Machines(或SVM)与Support Vector Domain Description(或SVDD)的结合问题、核心向量的性能和应用问题以及SVDD算法在不确定型决策中的应用等问题进行研究。本文的主要工作如下:1.研究了不平衡支持向量机的调整方法。不平衡数据集的学习问题被公认为机器学习领域的难题之一,其困难主要来自于不平衡数据集本身的特点:例如,样本数量少的类其样本不足,样本的分布并不能很好地反映整个类的实际分布。因此标准支持向量机在应用于不平衡数据集时,往往把少数类的样本错分,尽管整体的分类精度比较高,但数量少的类的分类精度非常低。本文针对支持向量机中两类不平衡数据的分离超平面提出一种调整算法。该算法根据样本投影分布和样本容量所提供的信息给出两类惩罚因子比例,从而得到一个新的分离超平面。实验结果显示了该方法的良好性能。2.研究了样本的减样和除噪问题。在使用支持向量机分类时,存在以下两个问题:一是当两类训练样本中存在野点(噪点)时,分类的精度较低;二是对大规模样本集,所占用的内存空间较大,训练时所需时间较长。针对以上问题,我们分别基于欧氏距离和核距离,根据概率论的知识定位分析了野点(噪点)及多余样本点的一般比例情况,给出一种减样方法。实验结果表明该方法与标准SVM相比,能保持或提高分类精度;对于大样本来说不仅能保持精度不减,而且还能较大地提高分类速度,具有较强的实用性。3.将支持向量机与支持向量域描述结合起来,提出一种分类器。支持向量机在学习阶段,所有样本参加训练,因此需要较大的内存空间和较长的训练时间;而支持向量域分类器(Support Vector Domain Classifier,或SVDC),只训练一类样本点,因此,分类时训练时间较短,但精度较低。为了减少SVM的训练时间,提高SVDC的精度,我们建立一种新的分离超平面,即基于支持向量域的分离超平面。该算法是从整体上考虑分类信息,实现了SVDD和SVM的结合。实验结果显示了该方法的有效性。4.提出了核心向量的重要概念,并把核心向量集应用于支持向量机的改进。为了有效提取样本类信息,基于SVDD算法依据参数选择,剔除支持向量,找核心向量。为了研究核心向量的性能,分别使用线性以及径向基核函数对样本数据进行描述,从理论上证明了核心向量在样本集中,在对应参数下具有最大密度值,因而得出核心向量包含最大信息量的重要结论。因此,核心向量不仅可以作为样本的期望点估计,而且可以提炼控制向量,改善SVM的分类效果。5.将支持向量域描述算法应用在不确定型群决策中。分别研究了模糊判断和区间判断两种逆判问题。对于模糊判断的逆判问题,是以模糊互反判断为准,使用SVDD算法,寻找公共信息,根据信息的贡献量决定专家的评判权重。对于区间判断的逆判问题,通过对区间判断矩阵的点向量分解,采用径向基核函数,使用SVDD算法提取群体的公共信息,同样根据信息贡献量决定专家的权重。该研究充分利用了SVDD的描绘功能,抓住主要信息,比较适合于不确定型的群决策问题。它不仅开拓了SVDD的研究领域,而且为不确定型群决策的研究提供了有效的技术。