心血管病流行病调查中缺失数据填补方法的比较及模拟研究

来源 :北京协和医学院 | 被引量 : 0次 | 上传用户:wcz741335565
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的心血管疾病是世界范围内严重危害人类健康的疾病,近年来研究显示,其发病率和死亡率在发展中国家日益增高,针对这一类慢性疾病,很多大规模的流行病学调查研究开展起来,为心血管病的预防提供了新线索和大样本数据的证据。然而,由于人的社会属性和心理特点,常常导致一些科研资料存在不完整数据的情况,即存在缺失数据。对于缺失比例在一定范围内的数据,过去的做法多是直接删除,这种直接的做法虽然简单易行,但却会减少观测的样本量,从而影响分析结果的检验效能。近些年,插补类方法正得到越来越多专家和学者的认可,相应的新方法发展迅速。本研究利用单一插补和多重插补等方法处理缺失数据,重点对多重插补类方法之间的差别进行比较,期望寻找到适用于常规慢性流行病学调查研究中缺失数据的填补策略与方法。方法以心血管病领域的一个大样本、多变量数据集为基础,采用蒙特卡洛技术,按照完全随机缺失机制模拟该数据集在5%、10%、20%、30%四种缺失比例下,单个不同类型变量(包括连续变量、二值变量、有序变量和名义变量)的缺失情形,以及单调缺失模式两个变量缺失,或任意缺失模式两个变量缺失情形。每种缺失情形模拟500次。每次模拟中,分别采用单一插补、联合模型(joint modeling, JM)多重插补策略、全条件定义(fully conditional specification, FCS)多重插补策略对缺失后的数据集进行处理。然后,收集各次模拟时不同方法的处理效果评价指标取值,并对这些取值进行汇总分析,比较这些方法的处理效果。结果对于单变量缺失而言,联合模型(joint modeling, JM)多重插补策略对缺失的单个连续变量插补时,可获得最为接近完整数据集的整体均数;联合模型(joint modeling, JM)多重插补策略对缺失的单个名义变量插补时,可获得对缺失个体值最高的插补正确率。但全条件定义(fully conditional specification, FCS)多重插补策略,则在对单个连续变量个体缺失值的插补方面精确度更高,插补后模型的参数偏差也更小;且全条件定义(fully conditional specification, FCS)多重插补策略对单个二值变量个体缺失值的插补方面精确度方面也更高。对单个缺失的分类变量而言,判别分析法插补正确率高于logistic回归插补法。就多重插补次数而言,单个缺失的连续变量,插补15次效果最好,但10次以上效果提升幅度有限:单个缺失的二值变量、名义变量,插补5次效果最好。对于单调缺失模式多变量缺失,联合模型(joint modeling, JM)多重插补策略对个体缺失值的插补方面精确度高于全条件定义(fully conditional specification,FCS)多重插补策略。在连续变量与二值变量、连续变量与有序变量、连续变量与名义变量单调缺失的插补中,全条件定义(fully conditional specification, FCS)多重插补策略对连续变量在个体缺失值的插补精确性方面高于联合模型(joint modeling,JM)多重插补策略,但联合模型(joint modeling, JM)多重插补策略对分类变量的插补正确率高于全条件定义(fully conditional specification, FCS)多重插补策略。对于任意缺失模式多变量缺失,在连续变量与名义变量缺失的插补中,预测均数匹配法(regpmm)与判别函数法(discrim)联用,对连续变量在个体值的插补精确度上更好,对名义变量的插补准确率也较高。四种缺失比例情形综合考量,FCS(regpmm+discrim)插补5次处理效果整体最好。结论本研究以心血管病研究领域的一个大样本完整数据集为基础,采用模拟缺失的方法,构造了不同类型变量缺失情况。对于单个变量缺失,联合模型(joint modeling,JM)多重插补策略适用于名义变量,而全条件定义(fully conditional specification,FCS)多重插补策略适用于二值变量和连续型变量;对于单调缺失模式多个连续变量缺失,联合模型(joint modeling, JM)多重插补策略精度更高,对于既有连续变量又有离散变量缺失,联合模型(joint modeling, JM)多重插补适用于其中连续变量,全条件定义(fully conditional specification, FCS)多重插补策略适用于其中离散变量;对于任意缺失模式多变量缺失,全条件定义(fully conditional specification,FCS)多重插补策略精度较高。
其他文献
应用新疆开都河流域巴音布鲁克气象站和开都河大山口水文站近50a的逐月数据资料,通过Mann-Whitney阶段转换检验,不均匀系数等不同的方法,对开都河径流量年际年内变化及其对气
路面平整度的好坏直接影响行车的舒适性,控制好路面的平整度是提升行车舒适性的关键。文章针对影响沥青路面混凝土路面平整度的主要因素,逐一分析相应的控制措施,通过分析影
目的探讨结肠癌合并阑尾炎的原因,减少误诊漏诊概率。方法对哈尔滨医科大学附属第一医院2006年1月至2013年3月期间的1 094例结肠癌患者进行回顾性分析。结果在1 094名结肠癌
目的:研究归脾汤加减治疗中老年久卧型便秘的疗效。方法:根据《中华人民共和国中医药行业标准》(ZY/T001-94)诊断依据,并结合中老年久卧型便秘的特点,随机选择60例中老年患者
随着时代开始不断的发展,在教学中也应该有着改变。在之前的老师教学知识照搬课本,并没有进行相应的解释,在这其中,数学的理解就比较难,让学生无法迅速理解知识的内容。所以
近年来,随着深层搅拌桩施工机械技术的提高和施工工艺的不断完善,水泥土搅拌桩的搅拌均匀程度和桩身质量得到很大提高,以其强度提高快、水稳性好、造价低、施工周期短等优势
对中国期刊全文数据库中2011-2014年有关高校图书馆读者决策采购的文献进行统计,从论文年度、期刊分布两个方面总结了研究现状,并且介绍高校图书馆读者决策采购的概念、缘起
本文对地震后灾区人民可能出现的心理情况进行了介绍,结合心理学的知识对灾区人民的这些问题提出了一些可行性的干预措施,希望能对灾区志愿者有所帮助。
郑焦城际铁路黄河桥主桥为11-(2×100)m下承式连续钢桁梁桥,两孔一联共11联,总长2200 m。钢桁梁采用顶推与悬拼相结合方式进行架设。顶推施工前对大型临时结构中的拼装支架、
随着能源与电力领域供给侧改革的推广,以电力为主体并融合天然气、热能和交通等多种能源形式的区域综合能源系统将成为未来城市配网的主要发展趋势。利用能源集线器模型刻画