论文部分内容阅读
目的:肺癌是世界范围内造成癌症死亡的主要原因,提高肺癌生存率最有效的方法是二级预防,即早发现、早诊断和早治疗,而对于肺结节的良恶性鉴别诊断是目前临床工作的重点也是难点。本文将贝叶斯网络(Bayesian Network,BN)理论应用到肺结节的良恶性鉴别诊断中,通过结合患者的病史、人口统计学特征、CT影像学特征、血清肿瘤标志物指标和部分随访信息构建了新型肺结节恶性概率静态预测模型。相较于传统的肺结节恶性概率预测模型,本文构建的模型纳入了更多可利用的信息,进一步提升了对于肺结节良恶性鉴别诊断的能力,模型的灵敏度和特异度均有所提升,对该模型的应用有望进一步降低胸部低剂量CT(Low-dose Computed Tomography,LDCT)筛查的假阳性率。在成功构建BN模型的基础上,本研究进一步将动态贝叶斯网络(Dynamic Bayesian Network,DBN)理论应用到肺结节的良恶性鉴别诊断中,构建了一个可纳入患者全部随访信息的肺结节恶性概率动态预测模型,该动态模型可基于患者历次随访的检查结果及临床资料预测其当前肺结节的恶性概率,从而在患者进行临床活检或手术切除等有创性操作前提供更为客观的证据,避免不必要的侵袭性操作。方法:(1)本研究回顾性收集2014年1月至2020年12月间,东南大学附属中大医院胸心外科和呼吸科进行胸部CT检查时发现肺结节的病例资料,按照病例入选标准共将981例患者纳入研究,其中恶性结节647例(65.95%),良性结节334例(34.05%)。利用卡方检验和Fisher确切概率法对可能与肺结节良恶性结局有关的变量进行单因素分析筛选,将筛选出的变量作为输入变量,将肺结节的良恶性判定结果作为因变量,分别使用数据驱动建模法、专家建模法和混合法构建贝叶斯网络模型,并构建Logistic回归、随机森林、支持向量机和人工神经网络模型用于比较。之后通过十折交叉验证对各模型的泛化性能进行评价,通过灵敏度、特异度、准确度、受试者工作特征曲线(Receiver Operating Characteristic curve,ROC)和受试者工作特征曲线下面积(Area Under the Curve,AUC)评价和比较各模型的综合性能。最后对贝叶斯网络模型和其它已在临床上广泛运用的肺结节恶性概率预测模型(包括MAYO模型、Brock模型和北京大学人民医院PKUPH模型)的综合性能进行比较。(2)本研究回顾性收集2014年1月至2020年12月间,前往东南大学附属中大医院胸心外科和呼吸科进行肺结节随访的病例资料,按照病例入选标准共将396例肺结节患者纳入本阶段研究,其中恶性结节214例(54.04%),良性结节182例(45.96%),396例患者全部参加过一次以上的肺结节随访,217例患者参加过两次以上随访,129例患者参加过三次以上随访。根据肺结节随访数据的特点对上一阶段研究构建的静态贝叶斯网络结构进行适当修改后,将其按照一定的时间片参数沿时间轴展开,得到动态贝叶斯网络结构。在网络结构确定后对动态贝叶斯网络进行参数学习,从而得到完整的动态贝叶斯网络模型。最后,在不同的应用场景下分别对模型进行十折交叉验证,以评估模型的泛化性能,通过灵敏度、特异度、准确度和AUC指标对模型的综合性能进行评价并与静态贝叶斯网络模型比较。本研究采用SAS 9.4和R 3.6.0软件对数据进行处理及分析。结果:根据研究目的,本次研究结果主要分为以下两个部分:(1)基于贝叶斯网络(BN)的肺结节诊断模型经单因素分析后可得,年龄组、肺结核病史、肺内总结节数量、结节位置、最大结节长径、结节类型、分叶征、毛刺征、胸膜凹陷征、空泡征、血管集束征、钙化结节、CEA水平、CYFRA21-1水平、首末次随访时间间隔和首末次随访结节变化变量在肺结节良恶性组间差异有统计学意义,故将上述变量纳入静态贝叶斯网络模型构建。通过比较各模型的十折交叉验证结果发现,在利用三种不同方法构建的贝叶斯网络模型中,通过混合法构建的BN-C模型总体预测性能最为优异,模型灵敏度为0.811,特异度为0.808,准确率为0.810,AUC为0.854,其在特异度、准确率和AUC指标上均优于其它两种方法所构建模型的同时还保持着较高的灵敏度,说明在贝叶斯网络结构的构建过程中将专家经验与真实数据结合可有效提升模型的性能;在与其它机器学习模型的比较中发现,人工神经网络模型具有最高的灵敏度,为0.916,但特异度也最低,为0.620,说明该模型发现肺癌患者的能力最强,但也有较大可能会造成误诊。随机森林模型具有最高的总体准确率,为0.828,说明该模型对于肺结节良恶性判定的总体准确性最好,但其特异度也较低,为0.692。通过混合法构建的BN-C模型具有最高的特异度(0.808)和AUC(0.854),并且灵敏度(0.811)也保持在可接受的水平,这说明贝叶斯网络模型可以在准确发现肺癌患者的同时最大程度的降低误诊率,从而避免不必要的侵袭性操作;在与MAYO模型、Brock模型和PKUPH模型的比较中发现,本研究通过三种方法构建的贝叶斯网络模型在各项性能指标上均全面优于MAYO模型、Brock模型和PKUPH模型。(2)基于动态贝叶斯网络(DBN)的肺结节诊断模型对DBN模型识别肺结节恶化趋势能力进行验证后发现,模型的灵敏度指标在各随访点上均保持在较高的水平(0.880~1.000),而模型的特异度指标在1(首次随访)和2(第二次随访)随访点较低,分别为0.523和0.761,模型的总体准确率和AUC指标在1随访点较低,分别为0.644和0.767。但随着随访次数的增多,模型的特异度、总体准确率和AUC指标均不断增高,从3随访点开始便到达了较高的水平(0.886~0.959);对DBN模型提前诊断能力进行验证后发现,在至少参加了两次肺结节随访且最终通过穿刺活检或手术切除确诊肺癌的患者中,有89.3%(75/84)的患者可以通过模型做出提前诊断;对DBN模型预测肺结节最终结局能力进行验证后发现,模型的灵敏度、总体准确率和AUC指标在各随访点上均保持在较高的水平(0.798~1.000),而模型特异度指标在0(基线检查)和1随访点较低,分别为0.753和0.714,但随着随访次数的增多,模型的特异度指标迅速得到改善,在2随访点时即达到了0.902,并在之后的随访点上得到进一步提升;在DBN与BN的比较中发现,两模型的预测性能均随着随访次数的增加而不断提升,对于参加了多次随访(四次以上)的患者,两模型的预测准确性均达到了相当高的水平。除在随访点1和3(第三次随访)上,DBN模型的特异度指标略低于BN-C模型,在随访点4(第四次随访)~8(第八次随访)上,DBN模型与BN-C模型的灵敏度指标相等外,其余各随访点上DBN模型的各项性能指标均优于BN-C模型。结论:(1)相比于利用其它方法构建的贝叶斯网络模型和其它常用机器学习模型,通过混合法构建的贝叶斯网络模型BN-C具有最高的特异度(0.808)和AUC(0.854),并且灵敏度(0.811)也保持在可接受的水平,这说明贝叶斯网络模型的总体预测性能较为优异,可以在准确发现肺癌患者的同时最大程度的降低误诊率,从而避免不必要的侵袭性操作。此外,相比于其它黑箱模型,贝叶斯网络的图形化性质使其能够以更直观的形式反映出各影响因素间及各因素与肺结节良恶性之间的复杂关系,模型中所包含的各种信息也更容易被临床医生所理解。在对贝叶斯网络模型与其它已在临床上广泛运用的肺结节恶性概率预测模型的比较中发现,本研究通过三种方法构建的贝叶斯网络模型在各项性能指标上均全面优于MAYO模型、Brock模型和PKUPH模型。(2)本研究构建的动态贝叶斯网络模型识别肺结节恶化趋势和预测肺结节最终结局的能力均较为优异,且模型预测的准确性随着随访次数的增多而不断提升。此外,本研究还进一步探索了模型对于肺癌患者的提前诊断能力,发现在至少参加了两次肺结节随访且最终通过活检确诊肺癌的患者中,有89.3%(75/84)的患者可以通过模型做出提前诊断。这一结果表明,动态贝叶斯网络模型可以先于临床医生识别出肺结节的恶化趋势,有利于对肺癌患者的早发现、早诊断和早治疗,从而提高肺癌患者的生存率。(3)本研究构建的动态贝叶斯网络模型在多数随访点上的各项性能指标均优于静态贝叶斯网络模型,相较于静态贝叶斯网络模型而言,动态贝叶斯网络模型在对肺结节的恶性概率进行预测时可以利用更多的随访信息,增加了可用于预测的总信息量,从而可以做出更准确的预测,进一步提升了对于肺结节良恶性鉴别诊断的灵敏度和特异度,该模型在肺结节患者的随访中具有良好的应用价值。