论文部分内容阅读
支持向量机是由Vapnik等人提出的一种分类算法,因其具有良好的泛化性能,在机器学习和数据挖掘领域中被研究者广泛使用。传统分类算法中假设对于属于不同类型的样本的错误分类导致的误分代价是相同的。然而在很多实际应用中,误分类不同类别的样本将会产生不同的误分代价,例如疾病诊断、信用卡诈骗检测等场景即是如此。针对这一类的代价敏感问题,研究者提出了多种代价敏感算法,其中代价敏感支持向量机具有很好的性能及广泛的适应性。本文即以代价敏感支持向量机作为重点研究对象。文中取得的创新研究成果如下。(1)针对代价敏感问题,文中设计了一系列的对比实验对于多种代价敏感算法进行了比较。实验在十个代价敏感数据集和四个不平衡数据集上进行,并使用了总代价、AUC、F1指标和G均值等四种代价敏感问题中常用的评价指标对实验结果进行了评估。通过对比实验发现代价敏感支持向量机与其他代价敏感算法相比,具有更好的分类性能,并能够适应多种来自不同场景的数据集。(2)文中首先对代价敏感支持向量机提出了一种全量快速求解算法。代价敏感支持向量机与非代价敏感支持向量机类似,其求解问题本质上是二次规划问题,因而可以采用SMO算法进行求解。文中首先对于代价敏感支持向量机的SMO算法进行了理论推导和时间复杂度分析,并根据时间复杂度分析指出了SMO算法可以进一步加速的方向;随后提出了使用随机梯度下降方法对于SMO算法进行加速的算法框架;之后通过实验分析,验证了使用随机梯度下降对SMO进行加速的有效性,并印证了之前对于SMO算法时间复杂度的理论分析。(3)为了适应在线学习场景下的分类问题,文中提出了一种代价敏感支持向量机的多样本增量式快速求解算法。全量算法在训练数据集发生改变时需要对所有训练样本进行重新训练,从而得到新的模型,因而在数据集不断变化的在线学习场景下会浪费很多学习时间;而增量算法可以直接吸收新增样本并直接更新现有模型,从而避免了对已有数据的重新训练。文中首先对于代价敏感支持向量机的多样本增量式算法进行了理论推导;随后通过实验研究说明了增量式算法的有效性和高效性;此外,文中还通过实验进一步分析了增量式算法高效的内在原因。