logistic回归模型在流行病学病因分析中的偏性及其改进策略研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:hanminaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景:探讨疾病危险因素进而推断疾病病因是流行病学的永恒主题,也是预防医学实践中的主要任务。然而,目前常用的大多数统计方法多是从关联分析入手,通过相关关系逼近因果关系,在分析过程中常常忽略混杂因素的影响,从而导致因果效应的错误估计。虽然,流行病学家已经提出了一系列控制混杂偏倚的策略方法,包括:限制、分层、调整。但如何正确应用这些策略方法,借助常规的统计关联分析有效地控制混杂偏倚,一直是困扰分析流行病学研究的难题。logistic回归模型是流行病学病因分析中最为普遍的方法。事实上,logistic回归模型的估计值在本质上是关联分析层面的条件概率,所得到的因果效应估计值往往有偏。因此,如何正确使用logistic回归模型以准确估计暴露对结局的真实因果效应是病因分析中需要解决的重要问题。此外,由于纳入回归模型的变量集不同,得到的因果效应估计值也会不同;随着调整变量个数的增加,因果效应估计的精确性也会受到影响。因此,如何选择最优调整变量集,以准确估计暴露对结局的因果效应,也是logistic回归分析中需解决的关键问题。方法:本文针对传统logistic回归模型估计偏性和最优调整混杂集的选择问题,采用了统计模拟研究、理论推导证明和实际数据分析相结合的方法,试图系统地研究传统logistic回归模型的估计偏性,改进分析策略,探索最优调整混杂集的选择及其纳入准则。针对传统logistic回归模型的估计偏性,探讨使用逆概率加权法构建logistic边际结构模型替代传统logistic回归模型,从而校正其估计偏性,获得无偏的因果效应估计。针对logistic回归分析中最优调整混杂集的选择及其纳入准则,基于因果图模型和等值混杂理论,比较传统logistic回归模型和基于逆概率加权的logistic边际结构模型表现,分别提出纳入调整混杂集的最优策略和一般指导性原则。充分考虑到混杂变量之间的复杂性,本文由简单到复杂逐步构建四种因果图模型,并根据等值混杂的充分必要条件,得到每种因果图模型下的等值混杂集;进而,分别采用两种logistic模型调整不同的混杂集,并分别比较估计值的偏倚和标准误,据此评价因果效应估计值的准确性和精确性。在实际数据分析过程中,面对众多混杂因素时,往往难以获得明确的因果图模型,也难以明确真实因果效应。本文采用逐步递加的方式估计高甘油三酯对糖尿病前期的影响。通过比较logistic回归模型和logistic边际结构模型的不同表现,进一步说明两种模型在病因分析中的差异。结果:1.通过理论证明和模拟研究,可得出以下结果:(1)在估计暴露对结局因果效应时,当调整的混杂集满足后门准则时,传统logistic回归模型的因果效应估计值多为有偏估计。其中,调整所有混杂后的因果效应估计值与调整结局所有父母节点后的因果效应估计值相等;而调整暴露的所有父母节点后得到的因果效应估计值与前两者不相等,但是偏倚更小(即准确性更高),且大部分情况下精确性也最高。(2)logistic边际结构模型调整满足后门准则的任一集合时,均可得到因果效应的无偏估计。其中,调整结局所有父母节点时,因果效应估计值的标准误最小(精确性最高)。(3)在因果图的结构只有部分已知的情况下,传统logistic回归模型调整马尔科夫边界相等的混杂集时,因果效应的估计值均为有偏估计,通常情况下,调整暴露的父母节点产生的偏倚较小。(4)logistic边际结构模型调整仅满足马尔科夫边界相等的混杂集,得到的因果效应估计值近似相等,但均为有偏估计。2.在实际数据分析时,分别用传统logistic回归模型和logistic边际结构模型估计高甘油三酯对糖尿病前期的因果效应,均得到高甘油三酯是糖尿病前期的危险因素。随着传统logistic回归模型/logistic边际结构模型调整更多的生化指标和体质测量指标,高甘油三酯对糖尿病前期影响的效应估计值逐渐减小。当调整的混杂因素相同时,相较于logistic边际结构模型,传统logistic回归模型得到高甘油三酯对糖尿病前期的效应偏大。结论:1.充分考虑混杂变量之间的关系,分别就四种因果图模型进行统计模拟研究、理论推导证明。结论如下,(1)当调整的混杂集合满足后门准则时,传统logistic回归模型的因果效应估计值多为有偏估计,而logistic边际结构模型均为近似无偏估计且估计值的精确性更高。因此,建议使用logistic边际结构模型代替传统logistic回归模型进行病因分析。(2)当调整的混杂集合仅满足马尔科夫边界相等时,两种logistic模型的因果效应估计值均为有偏估计,但logistic边际结构模型相对稳定。因此,仍推荐使用logistic边际结构模型。(3)选择调整混杂集的准则为:logistic边际结构模型为调整结局的所有父母节点;传统logistic回归模型为调整暴露的所有父母节点。2.实际数据分析与模拟结果一致,与logistic边际结构模型相比,传统logistic回归模型估计暴露对结局的因果效应值偏高。
其他文献
电子商务在航空业中的广泛应用已经成为航空业发展的必然潮流。本文总结了电子商务的兴起对航空业的影响,分析了电子商务应用于航空业时所面临的问题,最后提出了在航空业中应
经济全球化引发了发达国家与发展中国家之间价值观上的冲突,对我国的伦理道德影响巨大。充分认识经济全球化,积极参与经济全球化,沉着应对经济全球化的挑战,是必然的选择。
为提高三门峡水电站的经济运行水平,以水电站机组运行理论为依据,结合具体实践,通过不断探索优化使三门峡水电站水能利用率和经济运行水平得到不断提高。从提高运行水头和提
基于互联网信息技术的有效构建,企业财务管理工作的落实应当明确自身技术所具备的先进性和理念优势,这样才能够确保后续工作环境和制度落实条件能够被完善,同时更能够依据财
“执行难”向人们提出了执行立法和构建执行法院紧迫性问题。通过分析中外历史经验,提出按“审执分立”的原则,加快执行立法,构建独立的执行机构,对解决“执行难”进而推动社
【摘 要】文化意識和语言之间有密切联系。受评价制度等因素影响,高中英语教学中往往容易忽视对文化意识的培养。本文通过分析高中英语课程标准中文化意识培养目标,现行高中英语教育中文化意识培养中存在的问题,进而提出高中英语教学中文化意识培养的途径和建议。  【关键词】文化意识 高中英语教学 存在问题 培养途径  语言和文化之间有着密切的联系。语言是文化的一种表现形式,不了解英美文化,要学好英语
在"裁剪"的工作环节中,使用自动拉布机可以有效保证成品品质,降低成本,提高效率。但在选择时,应该如何判断自动拉布机的优劣呢?上海欧西玛服装设备有限公司的专家给出了我们
<正>随着我国正式加入WTO和医疗卫生体制改革的不断深入,医院面临日益激烈的市场竞争和挑战。为了提高服务效率,增强综合竞争力,医院必须在科学评价的基础上加强各业务科室的
农业进展应当被注重,农业被划归第一产业,折射出最本源的生存状态。伴随技术进展,传统路径下的农业增长很难吻合现状。为此,应能重新辨识农业增长特有的关联要素,协调各类要
机器翻译经历了50多年的曲折历程,已取得了长足的进展,但困扰机器翻译译文质量的瓶颈依旧存在。作者从语言学、翻译学、文化学、计算机科学的角度分析、论述了机器翻译中的难