论文部分内容阅读
在生物信息学的研究中,主要遇到的是小样本高维数的数据,如在DNA微阵列表达数据中,往往包含成千上万个基因而样本个数仅仅只有数十个。如何进行此类数据的分析是当今的研究热点和难点。典型地,它主要有三个目标:特征选择(基因选择),从全部特征(基因表达水平)中选择出一个特征子集,以便构造一个好的分类器;模型(分类器)选择,估计不同分类器的性能,从中选出最好的分类器;模型评估,对已经选定的分类器,估计它在新数据上的预测误差。实际上预测误差的估计贯穿整个过程,因为预测误差是评价分类器性能的重要指标。当数据量足够大时,可以留出一部分数据作为测试集,通过此测试集上的测试误差来作为预测误差的估计,但是在此不适用。目前,预测误差常用各种形式的交叉验证来估计。本文中,我们将均衡3×2交叉验证应用于生物数据下预测误差的估计任务,模拟实验表明,在均方误差意义下预测误差的均衡3×2交叉验证估计优于常用的2折、5折、10折以及随机5×2交叉验证。在统计学中,重复实验次数越多应该得到的结果越准确,为此我们还考虑了多于3次重复的均衡m×2交叉验证。但是实验结果表明随着m值的增大,预测误差估计的性能并没有显著的提高。为此,基于估计的方差、偏差、均方误差、计算复杂度等因素综合考虑,我们得出在生物信息数据中均衡3×2交叉验证可能更有优势。