论文部分内容阅读
目的:基于2型糖尿病(Type 2 Diabetes Mellitus,T2DM)患者连续数年的随访数据集,结合深度学习技术的长短时记忆(Long ShortTerm Memory,LSTM)神经网络构建糖尿病肾病(Diabetic Kidney Disease,DKD)未来发病风险的预测模型,在肾脏未发生结构性损伤前精准筛选出DKD的高危人群,为针对重点人群实施早期干预提供依据。方法:本研究为回顾性研究。首先进行国内外相关文献回顾和专家小组访谈,确定DKD的预测风险因子。根据纳排标准,基于中国台湾省李氏联合诊所连续7年的随访数据集进行相关数据的收集包括:患者的一般资料、实验室检查结果、尿常规检查、随访期间的糖化血红蛋白(Hemoglobin Alc,HbA1c)、收缩压(Systolic Blood Pressure,SBP)和脉压(Pulse Pressure,PP)变异性。完成数据资料收集后,利用SPSS 22.0软件以确定各参数的相关系数,以决定最终需要纳入神经网络的特征参数,剔除无效数据后,再对符合要求的数据进行转换,使之成为符合神经网络输入要求的数据。根据DKD诊断标准,将数据分为未患DKD的T2DM患者数据集和患DKD的T2DM患者数据集,利用MATLAB软件进行数据提取和预处理,建立训练组和测试组进行模型的仿真训练。其中预处理的步骤包括标签定义、零-均值规范化分析、规范化处理。使用pytorch语言设计LSTM神经网络,选择Dropout算法防止模型过度拟合,在网络参数选择上采用均方误差函数作为损失函数,Adam算法进行模型的优化最终完成网络的搭建。利用pytorch语言进行网络的训练和结果的输出,并与支持向量机(Support Vector Machine,SVM)算法所构建的预测模型进行精准率、准确率、召回率及受试者工作曲线(Receiver Operating Characteristic Curve,ROC)下面积(Area Under The Curve,AUC)进行模型的评估与对比分析,并且分别基于LSTM建立三个模型探究HbA1c、SBP和PP变异性对模型整体性能的影响。结果:本研究共纳入6040例T2DM患者的随访数据集,其中训练集4228例,测试集1812例。本项研究共构建4个DKD风险预测模型,其中纳入全部变异性参数的LSTM模型的Loss曲线可以快速收敛,且相对于其它模型的曲线来说更加稳定,为本研究的最优预测模型,该模型的精准率为77%、准确率为86%、召回率为76%和AUC为0.83。基于SVM算法所构建的模型精准率为63%、准确率为76%、召回率为52%和AUC为0.73。两组组间比较,基于LSTM神经网络的精准率(P<0.001)、准确率(P<0.001)、召回率(P<0.001)、AUC(P=0.002)均明显优于基于SVM算法所构建的预测模型。此外,未纳入HbAlc变异性的LSTM预测模型的精准率、准确率、召回率和AUC分别为64%、78%、61%。和0.72,与纳入全部变异性参数的最优LSTM模型相比,最优LSTM模型的精准率(P<0.001)、准确率(P<0.001)、召回率(P<0.001)和AUC(P<0.05)均显著优于未纳入HbA1c变异性的LSTM预测模型。未纳入SBP变异性的LSTM预测模型的精准率、准确率、召回率和AUC分别为65%、79%、65%和0.75,与纳入全部变异性参数的最优LSTM模型相比,最优LSTM模型的精准率(P<0.001)、准确率(P<0.001)、召回率(P<0.001)和AUC(P<0.05)均显著优于未纳入SBP变异性的LSTM预测模型。未纳入PP变异性的LSTM预测模型的精准率、准确率、召回率和AUC分别为70%、81%、67%和0.77,与纳入全部变异性参数的最优LSTM模型相比,最优LSTM模型的精准率(P<0.001)、准确率(P<0.001)、召回率(P<0.001)和AUC(P<0.05)均显著优于未纳入PP变异性的LSTM预测模型。结论:1.本研究基于深度学习技术的LSTM神经网络成功构建2型DKD发病风险预测模型,其精准率、准确率、召回率和AUC均显著优于SVM算法所构建的预测模型。2.基于LSTM神经网络构建DKD风险预测模型需将HbA1c变异性、SBP变异性和PP变异性作为重要特征参数纳入,可进一步提升模型的整体性能。3.基于LSTM神经网络的DKD预测风险模型的成功构建为针对重点人群实施早期干预提供依据,这对于提升早期干预的精准性、有效预防或延缓DKD的发生、提升糖尿病患者的生活质量、减少医疗费用的支出具有重要意义,同时也为其他慢性疾病预测模型构建方法提供崭新视角。