论文部分内容阅读
目的:乙型肝炎病毒(Hepatitis B virus,HBV)感染是全球主要的公共卫生问题之一,不仅严重危害着人类健康,而且给患者造成了沉重的经济负担。合理配置医疗卫生资源,降低患者、家庭和社会经济负担是医疗保障工作解决的重点问题之一。因此,科学精准地预测医疗费用是开展工作的重要前提。基于医院电子病历系统的数据,具有易获得,能反映真实医疗环境等特点,已成为卫生经济学评价过程较为理想的数据来源。但医疗费用分布呈现出“偏峰”“厚尾”的特征,而且影响费用分布的因素较为复杂,这些因素在患者中的分布也呈现出高维度,类型复杂,多重共线等特点,如临床治疗决策包括多种药物的单用及联用,实验室指标种类繁多,且有很强的相关性。因此,采用传统统计分析方法条件受限,且单纯的根据某些可观测的变量进行分组来分析患者的医疗费用,难以完整反映患者群体特征。如若能在有效识别患者群体异质性的基础上进行费用预测,将有可能提高预测准确性。本研究基于SOM神经网络聚类分析,探测患者入院状态、住院治疗方式的群体异质性,同时,建立住院总费用的BP神经网络预测模型分析其影响因素,并与线性回归模型的预测情况作对比,评估SOM与BP神经网络模型在慢乙肝相关疾病住院患者医疗费用预测的可行性。为慢乙肝相关疾病的诊疗、费用控制提供科学合理的数据佐证,并为神经网络方法在临床费用数据的应用提供方法学支持。方法:本研究基于广州市某传染病医院信息系统,纳入分析2014和2015年慢乙肝及其相关疾病患者5194人次(2014年:2522;2016年:2672),描述两年患者的人口学特征、入院时实验室检查结果、住院期间治疗方案及医疗费用情况。并采用无监督的SOM神经网络方法分别对两年住院患者的住院期间治疗方案和入院时实验室检查结果进行聚类分析,探索住院患者的群体异质性。再者,通过与有监督的BP神经网络方法相结合,建立住院总费用的预测模型并分析其影响因素。根据纳入预测变量的不同,建立住院患者总费用的BP神经网络预测模型(NN-cost-1、NN-cost-2、NN-cost-3和NN-cost-4),相应的建立线性回归预测模型(LR-cost-1、LR-cost-2、LR-cost-3和LR-cost-4);同时建立住院患者对数(lg)费用的BP神经网络模型(NN-lgcost-1、NN-lgcost-2、NN-lgcost-3和NN-lgcost-4),相应的建立线性回归模型(LR-lgcost-1、LR-lgcost-2、LR-lgcost-3和LR-lgcost-4)。随后,比较模型间与模型内的预测性能。上述过程均将2014年慢乙肝及其相关疾病住院患者作为训练集,以2015年住院患者为验证集。结果:本研究纳入分析的5194人次慢乙肝及其相关疾病住院患者中,其中以男性为主(78.17%),平均年龄46.0±14.2岁;自费患者占比最高(60.74%),医保患者占35.79%;且以慢乙肝患者为多(40.62%);平均住院15.2±13.0天;有17.50%的患者前一年有过住院记录。2014和2015年慢乙肝及其相关疾病住院患者的次均总费用分别为10837.8和10873.8元。其中,药物费用最高,分别为4510.9和4024.7元,其次为检验检查费,分别为3499.2和3626.9元。SOM聚类探究患者住院治疗方式的异质性显示,患者住院治疗方式主要包括4类,分别为:1.抗病毒联合对症联合并发症治疗模式;2.对症联合并发症治疗模式;3.抗病毒联合保肝治疗模式;4.保肝为主治疗模式。此四种模式患者2014年的次均住院总费用分别为20618.7、13393.3、8743.4和6043.0元,2015年分别为:21096.6、13801.3、9107.7和5626.0元,且各类费用成分的差异有统计学意义。经SOM聚类的患者入院疾病状态有4类,分别为:1.肝功异常伴肝脏合成功能障碍伴高HBV-DNA病毒载量;2.肝功异常伴肝脏合成功能障碍;3.肝功异常伴高HBV-DNA病毒载量;4.肝功异常。此四种入院状态患者2014年均次住院费用分别为:18012.9、14380.1、8194.6和7527.8元,2015年分别为:16810.1、11934.7、8610.1和6093.8元。且在其他费用成分上差异有统计学意义。神经网络模型在预测总费用方面(NN-cost),模型预测准确性在训练集和验证集分别约为83%和77%。将经SOM聚类后形成的用于反映患者入院时检验状态和住院治疗方式的变量作为预测变量(NN-cost-2、NN-cost-3、NN-cost-4),较NN-cost-1提高了预测准确性,同时减少了MAPE。神经网络模型在预测对数总费用方面(NN-lgcost),四个模型的预测性能也呈现出相同的结果。本研究发现,NN-cost模型均优于LR-cost模型,预测准确性提高了约3%,同时减少MAPE,说明本研究中,神经网路模型在预测住院总费用方面优于线性回归模型。同样的,NN-lgcost模型均优于LR-lgcost模型,提示在对数总费用预测上,神经网络也显示较强的优势。本研究还发现,NN-lgcost的四个模型较相应的NN-cost模型均提高了模型的预测准确性(约3%),提示对住院总费用进行对数转换后,提高了模型预测的准确性。同样的,LR-lgcost模型也均优于LR-cost模型,说明将经对数转化后的费用作为预测目标,提高了线性回归模型的预测准确性。此外,分析神经网络模型中预测变量重要性发现,经SOM聚类后形成反映群体异质性的变量作为预测变量,在费用预测中重要程度较高。采用神经网络模型预测医疗费用,有效地避免了线性回归过程中自变量间相关等诸多问题,改善了线性回归过程中自变量的影响作用,而且提高了预测准确性。结论:经SOM神经网络聚类分析探测患者治疗方式及入院状态上的群体异质性发现,异质性患者在住院总费用及费用成分上的差别有统计学意义。说明经SOM聚类能较好的区分患者的群体异质性,为后续住院费用的预测提供前提。采用BP神经网络预测住院总费用的模型优于线性回归模型。基于SOM神经网络聚类分析后,将生成的用于反映患者群体异质性的变量作为预测变量,提高了预测性能。与总费用的预测相比,在预测对数转化后的总费用方面,无论神经网络模型还是线性回归模型,预测性能均显著提高。