论文部分内容阅读
目的:量表是由若干个问题或者自我评分指标构成的标准化测定表格,一般存在于调查问卷中,由被调查者的主观意识决定,数据缺失非常常见。作为收集数据的重要手段,对其缺失数据处理的研究应受到重视。常用的缺失值处理方法主要包括不完整样本删除和缺失值填补。不完全样本删除主要适用于缺失率较小且为完全随机缺失机制的数据集。对于缺失值填补,常用方法可大致分为基于统计学的缺失值填补方法以及基于机器学习的填补方法,均具有良好的表现。虽然目前缺失数据的处理方法日益完善,但是对量表缺失数据进行处理的时候,基本都是采用传统的案例删除以及基于统计学的填补方法。这些方法虽然在其他很多领域表现较好,但这些领域大都是针对定量资料的研究。量表资料是典型的多分类、呈现等级的资料,历来没有被重视。多重填补是传统方法中的佼佼者,但是也存在一定的缺点。因此,本文尝试选择在基于统计学方法中表现优异的方法——热卡填补和多重填补,然后选择基于机器学习算法的常用的方法——k最近邻填补和随机森林填补,对同一量表缺失资料做处理并进行比较,期望探索出最合适的方法,以便科研工作者在工作中进行合理运用。方法:本研究数据来源于青少年生活事件量表和匹兹堡睡眠质量指数量表的两个实证数据集,对于多分类等级量表数据缺失填补方法的比较研究过程主要分为缺失数据模拟、缺失数据填补、各指标效果评价以及综合评价四个步骤。在缺失数据模拟阶段,使用蒙特卡罗技术分别对两个完整量表资料模拟随机缺失机制下任意缺失模式的缺失数据集,缺失率分别为5%、10%、15%、20%、25%,且每种缺失率模拟50个缺失数据集。在缺失数据填补阶段,分别使用热卡填补、k最近邻填补、多重填补以及随机森林填补四种方法分别对每种缺失率下的每个缺失数据集进行填补。在效果评价阶段,在填补准确性水平上,使用错分率的均值(Mean of Proportion of Falsely Classified entries,MPFC)、填补准确率(Imputation Accuracy,IA)指标进行评价;在统计描述水平上,使用均数绝对误差的均数(Mean of Mean Absolute Error,MMAE)、标准差绝对误差的均数(Mean of Standard Absolute Error,MSAE)指标进行评价;在相关和回归水平上,使用回归系数绝对误差的均数(Mean of coefficient Absolute Error,MBAE)、复相关系数绝对误差的均数(Mean of Related coefficient Absolute Error,MRAE)指标进行评价,最后使用改良后的加权TOPSIS(technique for order preference by similarity to ideal solution)方法进行综合评价。结果:对于样本含量较小的青少年生活事件量表,在填补准确性方面,每个缺失率下均是随机森林填补的MPFC最小,IA最大,准确性最高,效果最好。在统计描述指标上,多重填补在MMAE指标效果最好,其次是随机森林填补;热卡填补在MSAE指标效果最好,其次是多重填补。在相关和回归指标上,多重填补在MBAE指标效果最好,其次是随机森林填补与多重填补非常接近;多重填补与随机森林填补在MRAE指标上数值相近,且效果最好。在综合评价方面,按照准确性指标、统计描述指标以及相关和回归指标分别按0.25、0.25、0.5加权计算,可以看出:随机森林填补与多重填补效果比较接近但是稍弱于多重填补,二者Ci值与最优参照点最接近,效果较好。其次是热卡填补,最后是k最近邻填补。当缺失率相对较小的时候(5%、10%、15%),多重填补与随机森林非常接近,效果最好;但当缺失率较高的时候(20%、25%),多重填补的效果最好。对于样本含量较大的匹兹堡睡眠质量指数量表,在填补准确性方面,每个缺失率下均是k最近邻填补的MPFC最小,IA最大,准确性最高,效果最好。在每种缺失率下,k最近邻填补方法的IA值均大于0.8,而其余三种方法(多重填补、热卡填补、随机森林填补)均大于0.75。在统计描述指标上,多重填补在MMAE指标效果最好,热卡填补与随机森林填补非常接近,比多重填补偏差大,但明显比k最近邻填补偏差小;热卡填补在MSAE指标效果最好,其次是随机森林填补。在相关和回归指标上,多重填补在MBAE指标效果最好,其次是热卡填补,k最近邻填补以及随机森林填补方法非常接近且与多重填补相差不大;随机森林填补在MRAE指标上数值最小,效果最好,其次是k最近邻填补和多重填补,最后是热卡填补。在综合评价方面,按照准确性指标、统计描述指标以及相关和回归指标分别按0.25、0.25、0.5加权计算,可以看出:随机森林与多重填补的效果最好,然后是热卡填补和k最近邻填补。当缺失率相对较小的时候(5%、10%),四种方法的Ci值比较接近,填补效果相差不大;但当缺失率较高的时候(15%,20%,25%),随机森林填补与多重填补的效果最好。从算法的运行时间与操作的难易程度的角度出发,总的来说,在样本量较大、缺失率较小的情况下,热卡填补与k最近邻填补占优,而样本量较大、缺失率较大的情况下,随机森林填补和多重填补占优。在样本量较小的情况下,无论缺失率大小如何,都是随机森林填补和多重填补占优。结论:总的来说,多分类等级量表在各缺失情况下随机森林填补与多重填补效果均较好。考虑计算时间与后续分析的复杂程度,随机森林填补更值得推荐。从缺失率角度考虑,当样本量足够、缺失率较小(10%及以下)时推荐使用热卡填补与k最近邻填补,而缺失率较大(10%及以上)推荐使用随机森林填补。当样本量不足,不管缺失率大小如何,都推荐使用随机森林填补。考虑在实际情况中,量表数据一般都是多分类等级量表,同时缺失率不会太高,一般在10%及以下,因此在实际工作中,在样本量充足情况下,首选热卡填补或k最近邻填补,而样本量不充足的情况下,首选随机森林填补。