论文部分内容阅读
本论文所做工作是与支持向量机(Support Vector Machine-SVM)的在线增量学习、样本选择技术及新SVld分类模型相关的一些研究。
关于线性临近支持向量机(Proximal SVM-PSVM)存在着简单的训练算法,且适合进行增量学习;但非线性PSVM(Nolinear Proximal SVM-NPSVM)的训练要求对一个大小为训练样本点个数平方的矩阵求逆,存在着空间复杂度过大的问题;而且NPSVM不能像线性情形那样进行增量学习。从这些问题出发,做了如下的工作。
●为了使NPSVM能够更加快速的进行在线增量学习,本文基于一个新的非线性PSVM模型设计了一种新的增量学习算法。该算法从新模型解的形式出发,利用分块矩阵求逆公式,有效地利用NPSVM分类器的历史训练结果,减少了在线学习过程中的重复学习,完成增量学习过程。理论推导及实验结果显示在线学习过程中采用该算法不仅可以得到与批量学习相同的分类器、正确率;而且解决了重复学习的问题,可以显著地缩短训练时间。
●NPSVM的空间复杂度是与样本个数的平方成正比的,为了处理大数据集的增量学习问题,本文设计了针对历史数据、新数据和非线性数据分类器的样本选择技术。在线学习过程中,该样本选择技术不仅能够选择出历史数据集中最具代表性的样本点,而且能够选择出新数据中最具价值的样本点;此外对于比较复杂的非线性分类器也特别设计了相应的样本选择方法。实验显示上述样本选择技术仅需付出较小时间代价,就可以有效地处理大样本集的在线学习问题,而且可以得到与利用全部样本进行训练的结果相近的正确率。
●设计了一种新的非线性SVM学习算法——Extreme SVM(ESVM)。ESVM是一种基于正则化最小二乘法的新的SVM分类器。与其它所有非线性SVM学习方法不同的是,ESVM不是使用核函数来得到非线性分类器,而是显式地构造了一个非线性的随机映射函数将输入样本点映射到一个特征空间中,然后在该特征空间中学习一个线性的分类器。该方法基于单隐层前馈神经网络(Single hidden Layer Feedforward Networks-SLFNs)的学习机制,在保持SLFNs学习能力的前提下,其输入权重可以随机地确定而不需要训练,这样SLFNs隐层神经元的作用相当于一个映射函数。理论分析及实验结果表明:ESVM可以有效地应用于大数据集的训练,不仅具有与SVM相当的正确率,而且极大地缩短了训练时间。另外,与SLFNs的学习算法ELM相比,ESVM将正则化理论引入到SLFNs的训练中,具有比ELM更好的泛化能力。