论文部分内容阅读
支持向量机由于其出色的推广能力,在近几年得到广泛的研究。虽然支持向量机在两分类和多分类方面都取得很大进展,但是仍有待进一步的研究和改善。在两分类中,SVM在大规模数据上训练速度很慢,利用数据提取的方法可以减少训练样本数目,从而加快训练速度。
本文利用马氏距离和“aσ-方法”提出新的数据提取方法,在进行数据提取时根据样本点到训练集的马氏距离来确定样本点与样本集的位置关系,从而只提取对于建立超平面有作用的样本点,并避免了以往的数据提取方法很强的随机性。在数据提取的过程中还考虑到了提取的数据占原来总样本集数目的比例,通过调整a的值,可以控制数据提取的数量,避免提取后训练样本集的数据太多或太少,并加快了支持向量机的训练速度。对于多分类问题,本文在聚类分类的基础上,根据二叉树思想,提出了一种新的聚类算法来进行多分类。此方法充分利用二叉树中分两类的简便之处,将多类的聚类简化为点的聚类,从而避免了以往聚类方法中可能出现的同一类的点在聚类中变成不同类的问题,并结合选址问题中固定数目的配送点的选址算法,将原问题进行简化,对多分类问题提出了新的聚类算法。