多分类等级量表数据缺失填补方法的比较研究

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:kingper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:量表是由若干个问题或者自我评分指标构成的标准化测定表格,一般存在于调查问卷中,由被调查者的主观意识决定,数据缺失非常常见。作为收集数据的重要手段,对其缺失数据处理的研究应受到重视。常用的缺失值处理方法主要包括不完整样本删除和缺失值填补。不完全样本删除主要适用于缺失率较小且为完全随机缺失机制的数据集。对于缺失值填补,常用方法可大致分为基于统计学的缺失值填补方法以及基于机器学习的填补方法,均具有良好的表现。虽然目前缺失数据的处理方法日益完善,但是对量表缺失数据进行处理的时候,基本都是采用传统的案例删除以及基于统计学的填补方法。这些方法虽然在其他很多领域表现较好,但这些领域大都是针对定量资料的研究。量表资料是典型的多分类、呈现等级的资料,历来没有被重视。多重填补是传统方法中的佼佼者,但是也存在一定的缺点。因此,本文尝试选择在基于统计学方法中表现优异的方法——热卡填补和多重填补,然后选择基于机器学习算法的常用的方法——k最近邻填补和随机森林填补,对同一量表缺失资料做处理并进行比较,期望探索出最合适的方法,以便科研工作者在工作中进行合理运用。方法:本研究数据来源于青少年生活事件量表和匹兹堡睡眠质量指数量表的两个实证数据集,对于多分类等级量表数据缺失填补方法的比较研究过程主要分为缺失数据模拟、缺失数据填补、各指标效果评价以及综合评价四个步骤。在缺失数据模拟阶段,使用蒙特卡罗技术分别对两个完整量表资料模拟随机缺失机制下任意缺失模式的缺失数据集,缺失率分别为5%、10%、15%、20%、25%,且每种缺失率模拟50个缺失数据集。在缺失数据填补阶段,分别使用热卡填补、k最近邻填补、多重填补以及随机森林填补四种方法分别对每种缺失率下的每个缺失数据集进行填补。在效果评价阶段,在填补准确性水平上,使用错分率的均值(Mean of Proportion of Falsely Classified entries,MPFC)、填补准确率(Imputation Accuracy,IA)指标进行评价;在统计描述水平上,使用均数绝对误差的均数(Mean of Mean Absolute Error,MMAE)、标准差绝对误差的均数(Mean of Standard Absolute Error,MSAE)指标进行评价;在相关和回归水平上,使用回归系数绝对误差的均数(Mean of coefficient Absolute Error,MBAE)、复相关系数绝对误差的均数(Mean of Related coefficient Absolute Error,MRAE)指标进行评价,最后使用改良后的加权TOPSIS(technique for order preference by similarity to ideal solution)方法进行综合评价。结果:对于样本含量较小的青少年生活事件量表,在填补准确性方面,每个缺失率下均是随机森林填补的MPFC最小,IA最大,准确性最高,效果最好。在统计描述指标上,多重填补在MMAE指标效果最好,其次是随机森林填补;热卡填补在MSAE指标效果最好,其次是多重填补。在相关和回归指标上,多重填补在MBAE指标效果最好,其次是随机森林填补与多重填补非常接近;多重填补与随机森林填补在MRAE指标上数值相近,且效果最好。在综合评价方面,按照准确性指标、统计描述指标以及相关和回归指标分别按0.25、0.25、0.5加权计算,可以看出:随机森林填补与多重填补效果比较接近但是稍弱于多重填补,二者Ci值与最优参照点最接近,效果较好。其次是热卡填补,最后是k最近邻填补。当缺失率相对较小的时候(5%、10%、15%),多重填补与随机森林非常接近,效果最好;但当缺失率较高的时候(20%、25%),多重填补的效果最好。对于样本含量较大的匹兹堡睡眠质量指数量表,在填补准确性方面,每个缺失率下均是k最近邻填补的MPFC最小,IA最大,准确性最高,效果最好。在每种缺失率下,k最近邻填补方法的IA值均大于0.8,而其余三种方法(多重填补、热卡填补、随机森林填补)均大于0.75。在统计描述指标上,多重填补在MMAE指标效果最好,热卡填补与随机森林填补非常接近,比多重填补偏差大,但明显比k最近邻填补偏差小;热卡填补在MSAE指标效果最好,其次是随机森林填补。在相关和回归指标上,多重填补在MBAE指标效果最好,其次是热卡填补,k最近邻填补以及随机森林填补方法非常接近且与多重填补相差不大;随机森林填补在MRAE指标上数值最小,效果最好,其次是k最近邻填补和多重填补,最后是热卡填补。在综合评价方面,按照准确性指标、统计描述指标以及相关和回归指标分别按0.25、0.25、0.5加权计算,可以看出:随机森林与多重填补的效果最好,然后是热卡填补和k最近邻填补。当缺失率相对较小的时候(5%、10%),四种方法的Ci值比较接近,填补效果相差不大;但当缺失率较高的时候(15%,20%,25%),随机森林填补与多重填补的效果最好。从算法的运行时间与操作的难易程度的角度出发,总的来说,在样本量较大、缺失率较小的情况下,热卡填补与k最近邻填补占优,而样本量较大、缺失率较大的情况下,随机森林填补和多重填补占优。在样本量较小的情况下,无论缺失率大小如何,都是随机森林填补和多重填补占优。结论:总的来说,多分类等级量表在各缺失情况下随机森林填补与多重填补效果均较好。考虑计算时间与后续分析的复杂程度,随机森林填补更值得推荐。从缺失率角度考虑,当样本量足够、缺失率较小(10%及以下)时推荐使用热卡填补与k最近邻填补,而缺失率较大(10%及以上)推荐使用随机森林填补。当样本量不足,不管缺失率大小如何,都推荐使用随机森林填补。考虑在实际情况中,量表数据一般都是多分类等级量表,同时缺失率不会太高,一般在10%及以下,因此在实际工作中,在样本量充足情况下,首选热卡填补或k最近邻填补,而样本量不充足的情况下,首选随机森林填补。
其他文献
分布式光伏接入县域配电网,使潮流更加复杂,给电压控制带来很大挑战。文章提出一种基于县域配电网局部量测信息的动态分区和电压控制方法。依据网络结构按负荷“就近供电”进行初始分区,再依据分区调压的无功储备需求对初始分区作局部调整,利用分区凝聚算法形成最终动态分区方案;基于光伏本地调压能力的不足,提出一种考虑分区的电压分布式控制策略。通过IEEE69系统仿真实验,验证了文章分区方法与电压分区协调控制策略的
目的 分析某新晋三级医院的投诉事件,为建设服务型医院提出对策建议。方法 回顾性分析该医院2018—2020年投诉事件的渠道来源、涉及科室、原因分类等信息,并采用鱼骨图法对投诉原因进行推断性分析。结果 医院的投诉量逐年增加,投诉渠道发生改变,热线工单投诉量呈现逐年上升的趋势。医院医疗质量类投诉占比逐年下降,而非医源性的服务投诉占比逐年增加。被投诉的临床医技科室集中于发热门诊、妇产科、心内科和骨科,被
改革开放以来,我国的汽车工业发展迅速,产销量不断实现新的突破。在汽车保有量迅速攀升过程中,能源供给趋紧、气候变暖等问题不容忽视。因此,在全球汽车产业发展大浪潮中,我国在结合中国国情的基础上,明确了助推新能源汽车产业合理有序发展的目标和方向。伴随着近年来产业逐渐发展壮大,2015年我国新能源汽车消费已跃居全球首位,新能源汽车的推广应用正在稳步推进且取得了阶段性成果。但是相较传统能源汽车,2019年全
<正>跨境电商专员的工作内容是什么?通俗地说,你在国内电商平台上开店,面向国内市场做生意,那就是国内电商;而当你在国际电商平台上开店,面向全球市场做生意,那就是跨境电商。跨境电商专员的岗位职责与网店店主相似,如,对产品作介绍、分类、上架;对已上架产品进行日常更新维护,优化产品介绍;通过市场调查研究,分析竞争对手,制订有效
期刊
目的 探讨MDM2抑制剂RG-7388对弥漫性大B淋巴瘤(DLBCL)细胞增殖、细胞周期和凋亡的影响。方法 用2、4和8μmol/L RG7388处理DLBCL细胞株SUDHL2和HBL1。CCK8法和EdU法检测细胞增殖。Annexin V-FITC/PI双染和Caspase 3/7-GloTM酶活法检测细胞凋亡。流式细胞术检测细胞周期。蛋白质印迹法检测细胞周期和凋亡相关蛋白表达变化。结果 RG
教学是教师指导和帮助学生学习的过程,学生是学习的主体,其对教学内容的理解、思考和表达等,既是不可替代的,又不可能做到整齐划一,因此,教学等待是教学的题中应有之义。然而,在当下很多课堂上,由于教师对自身主导作用的误解、对教学过程流畅性的偏执和对教学效率的片面追求,使得教学等待缺失。要让教学等待回归教学过程,教师应尊重学生的主体性,承认教学等待;坚守教学育人使命,实施教学等待;积极行动顺势而为,灵活把
进入21世纪以来,为了对抗日益严峻的环境问题和能源问题,各国都在加紧部署新能源汽车的产业赛道。我国新能源汽车产业被列为战略性新兴产业之一,为了加强我国新能源汽车产业创新发展,“十五”期间,电动汽车重大专项被列入国家高技术研究发展计划(863计划),国家的重视程度空前。2016年之前,国家对处于发展初期的新能源汽车企业采取的是大力补贴扶持政策,但补贴不是长久之计,新能源汽车必须面临市场化考验的现实。
物质环境是幼儿园教育的物质基础,与教育质量的关系密切。本土文化融入幼儿园物质环境创设中,有助于传承和保护本土文化,增强幼儿的地区文化自信心。该文以河套文化为例,探讨河套文化融入幼儿园环境创设的价值和幼儿物质环境创设中运用河套文化资源存在的问题,并提出相应的解决策略。
文章通过对印染企业清洁生产审核的案例进行分析,在企业生产管理中植入“源头管控”理念,从原辅料(能源)、技术工艺、生产过程、设备、管理、人员、产品及废弃物八个方面挖掘清洁生产潜力,旨在达到节能、降耗、降污、增效的目的,从而促进印染企业的技术创新和绿色低碳转型。
目的 探讨中药足浴联合耳穴压豆治疗老年患者失眠的临床效果。方法 将60例住院失眠的老年患者随机分为治疗组和对照组各30例,对照组给予常规药物治疗,治疗组给予中药足浴联合耳穴压豆治疗,观察2组失眠老年患者的临床疗效。结果 治疗组总有效率为93.33%(28/30),显著高于对照组的76.67%(23/30),差异具有统计学意义(P <0.05)。结论 中药足浴联合耳穴压豆治疗老年患者失眠的效果显著,