论文部分内容阅读
不平衡多分类问题是目前分类问题中的研究的一个热点,有着广泛的应用背景,如异常检测、疾病诊断等等。同时,不平衡多分类问题也是分类问题中的一个难点。首先,它的样本分布不均匀,不同类别之间样本数目差别大;其次,它又是一个多分类问题。本文创新地构建了一种新分类模型,对于解决不平衡多分类问题取得了不错的效果。本文采用了医学诊断方面一个的数据集Arrhythmia。该数据集由452个患者记录组成,每个记录总共有279个特征值,目标是将数据集分类为16类。其中,类别的分布不均匀,正常的类别占整个数据集的一半多,而有的类别的占比不及1%。面对这样的一个数据集,本文创建了一种新分类模型,该模型是结合径向基函数插值和逻辑回归的算法思想而成的。为了寻找到最优的新分类模型,本文对新分类模型取了四种不同的径向基函数:高斯函数,Markoff分布函数,一次多项式函数和最简单的函数,在不同的参数下进行实验。最终得出,新分类模型在取一次多项式函数的形式下,相应的一次项系数c取10,惩罚项调节系数取1时,模型性能达到最佳,分类准确率高达76.01%。为了便于比较,本文还做了补充实验,将径向基函数插值和逻辑回归应用于该数据集。并且,对比了之前别人对这个数据集用不同分类器分类的效果。最后发现,新分类模型的分类效果是最好的。