论文部分内容阅读
尽管模式分类问题已经得到广泛应用,但是怎样快速有效地对大样本数据集进行分类,尤其是怎样快速有效地对失衡大样本数据集进行分类仍需进一步加以研究。一般的分类方法是通过求解二次规划问题将数据集进行分类,但当数据集很大时,计算复杂度相当高,影响了分类精度和训练时间。针对样例分布失衡和样本容量较大这两个问题,该毕业论文从以下两个方面进行研究:1、对于大样本数据集的分类问题,提出了位置正则化核心集向量机。此算法在求解最小包围球得到核心集时,根据样例在特征空间中位置的不同,进行位置正则化,从而将最小包围球进行优化,以提高分类精度。2、针对失衡数据的分类问题,提出了一种新的分类算法,即中心向量夹角间隔分类算法,此算法是在特征空间中找到最优向量,通过最优向量进行决策。核化的中心夹角间隔分类算法等价于中心限制最小包围球问题,与位置正则化核心集向量机结合得到正则化夹角间隔核向量机,可对大样本数据集进行快速有效的训练。将以上方法在UCI数据集上进行了验证,实验证明了位置正则化核心集向量机比核心集向量机具有更好的分类性能,中心夹角间隔分类算法较之于传统的支持向量机分类精度相当甚至更高,并且正则化夹角间隔核向量机可以对大规模失衡数据集进行快速有效的训练。