论文部分内容阅读
第一部分基于CTA的颅内动脉瘤自动化检测和分割的深度学习模型的开发目的:开发基于头颅CTA去骨图像的颅内动脉瘤深度学习算法的自动化检测和分割模型,并在独立的内部数据和外部数据中验证其效能。方法:本研究回顾性收集2009年7月到2017年3月在东部战区总医院进行头颅CTA且随后进行了DSA的患者(数据集1),将其随机划分为训练/调试/测试组。该模型通过训练数据由深度学习框架进行构建,使用调试数据集选择最佳超参数,在测试数据集中进行模型效能验证。评估的参数包括在患者水平的敏感性、特异性、准确性、阴性预测值、阳性预测值和动脉瘤水平的召回率、假阳性率、Dice系数。收集东部战区总医院2017年4月到2017年12月同时进行头颅CTA和DSA的患者作为独立内部验证数据(数据集2),收集南京脑科医院2019年1月到2019年7月间同时进行头颅CTA和DSA的患者(数据集3)作为独立外部验证数据对本模型进行验证。使用95%Wilson评分置信区间(confidence interval,CI)评估各统计量估计值的变异性,采用χ2检验或Fisher精确检验分析不同组间诊断效能的差异。结果:数据集1共纳入病例1177例,动脉瘤患者869例,对照组308例(其中影像资料显示血管正常病例257例,颅内动脉狭窄病例51例)。训练集包含927例(动脉瘤患者744例,对照183例),调试集100例(动脉瘤患者和对照组各50例),测试集150例(动脉瘤患者和对照组各75例)。模型结果显示,当假阳性率在0.29/例(95%CI:0.23-0.37)时,模型效能最佳,此时的敏感性最高为97.3%(95%CI:90.8%-99.3%),特异性为74.7%(95%CI:63.8%-83.1%),准确性为86.0%(95%CI:79.5%-90.7%),阳性预测值为79.4%(95%CI:70.0%-86.4%),阴性预测值为96.6%(95%CI:88.3%-99.1%);在动脉瘤水平,召回率为95.6%(95%CI:89.1%-98.3%),Dice系数为0.752(95%CI:0.708-0.796)。数据集2包含245例(动脉瘤患者111例,对照组134例),本模型的准确性、敏感性、特异性分别为86.1%(95%CI:81.2%-89.9%),88.3%(95%CI:81.0%-93.0%)和84.3%(95%CI:77.2%-89.5%),召回率为79.7%(95%CI:72.5%-85.4%),假阳性为0.26/例(95%CI:0.21-0.32);数据集3包含211例(动脉瘤患者39例,对照组172例),其准确性、敏感性和特异性分别是80.1%(95%CI:74.2%-84.9%)、82.1%(95%CI:67.3%-91.0%)和79.7%(95%CI:73.0%-85.0%),召回率为72.3%(95%CI:58.2%-83.1%),假阳性率为0.27/例(95%CI:0.22-0.34)。结论:本研究基于有金标准DSA验证的CTA影像数据,研发了颅内动脉瘤自动化检测和分割的深度学习模型,在内外部验证数据中都显示了较高的敏感性和分割准确性。第二部分基于CTA的颅内动脉瘤自动化检测和分割的深度学习模型的综合验证研究目的:评估影响CTA颅内动脉瘤自动化检测和分割的深度学习模型的诊断效能的相关因素,包括困难样本、图像质量和CT机型。方法:针对困难样本的研究,本研究回顾性搜集2009年7月到2017年3月在我院行头颅CTA和DSA的患者,困难样本定义为在CTA上无法明确显示而在DSA上提示有动脉瘤的患者(数据集4),使用本模型进行动脉瘤的自动化检测。针对图像质量,本研究回顾性收集2018年在我院行头颅CTA且经过DSA验证的患者(数据集5),基于噪声程度、血管锐利度和整体质量,按照4分法进行CTA图像质量评分,分别分析本模型对不同评分图像的诊断效能。针对CT设备厂商的影响,本研究回顾性收集2013-2018年在天津第一中心医院进行头颅CTA和DSA的患者(数据集6),按照CT机型(GE Revolution、Siemens SOMATOM Definition Flash和Toshiba Aquilion One)进行分组,分别分析本模型对不同厂商的影像的诊断效能。评估的参数包括在患者水平(敏感性、特异性、准确性、阴性预测值、阳性预测值)和动脉瘤水平(召回率、假阳性率、Dice系数)。使用95%Wilson评分置信区间评估各统计量估计值的变异性,采用χ2检验或Fisher精确检验分析不同组间诊断效能的差异。p<0.05为双侧检验有显著性统计学差异,多重比较采用Bonferroni校正p值法。结果:数据集4共纳入CTA阴性而DSA显示为阳性的动脉瘤患者31例(困难样本,包括43枚动脉瘤)。本模型准确识别其中5例患者共5枚动脉瘤。数据集5共纳入151例患者(包含46例动脉瘤患者共59枚动脉瘤),图像质量为1-4分病例分别为10、43、65和33例。结果表明本模型诊断敏感性和特异性分别为66.7%,85.7%;100%,89.7%;73.9%,85.7%;83.3%,92.6%。组间差异分析并未显示四组间存在统计学差异(所有p>0.05)。数据集6共纳入59例患者(包含39例动脉瘤患者共50枚动脉瘤),其中GE Revolution有13例(动脉瘤患者10例),Simense SOMATOM Definition Flash有21例(动脉瘤患者18例),Toshiba Aquilion One有25例(动脉瘤患者11例)。结果表明本模型敏感性和特异性分别为70.0%,66.7%;72.2%,66.7%;45.5%,50%,各组间差异无明显统计学(所有p>0.05)。结论:本模型对图像质量、CT机型具有优越的容忍性,并且可以凭借深度学习的特殊性能检测到CTA图像上显示不明确的颅内动脉瘤。第三部分基于CTA的颅内动脉瘤自动化检测和分割的深度学习模型的临床应用研究目的:本研究旨在对基于深度学习的CTA颅内动脉瘤自动化检测和分割模型的临床应用情况进行研究,包括临床常规场景及急性缺血性卒中(Acute ischiemic stroke,AIS)场景,并比较该人工智能算法和放射科医生的诊断效能。材料与方法:收集内部和外部各一个数据集进行临床常规的应用并行人机对比分析。内部数据为2019年6月和7月在东部战区总医院行头颅CTA的连续患者(数据集7),外部数据为2018年8月和9月在连云港第一人民医院行头颅CTA的连续患者(数据集8),进行模型阅片诊断。6位放射科医生(初级、中级、高级医生各2位)独立对这些患者进行颅内动脉瘤的诊断。在数据集总体、蛛网膜下腔出血(subarachnoid hemorrhage,SAH)患者和非SAH患者中分别计算并比较模型和人类平均(microaverage)诊断效能和诊断时间。评估的参数包括在患者水平(敏感性、特异性、准确性、阴性预测值、阳性预测值)和动脉瘤水平(召回率、假阳性率、Dice系数)。针对急性缺血性卒中场景的应用,回顾性收集2018年7月到2019年7月因疑似AIS行头颅CTA检查的连续患者(数据集9),使用本模型进行颅内动脉瘤检测。采用独立样本t检验或者Mann–Whitney U检验进行诊断时间的差异比较,采用χ2检验或Fisher精确检验分析不同组间诊断效能的差异。在与放射科医生的比较中,使用优劣效校验。诊断效能的差异的置信区间基于Gart和Nam的偏度校正评分法。结果:数据集7共纳入374例患者(包含53例动脉瘤患者共71枚动脉瘤),在数据集总体、SAH和非SAH患者中,医生平均诊断敏感性和特异性分别为58.5%(95%置信区间[CI]:53.0%-63.8%),95.3%(95%CI:94.2%-96.1%);66.7%(95%CI:54.1%-77.3%),95.4%(95%CI:89.6%-98.0%);56.6%(95%CI:50.5%-62.5%),95.3%(95%CI:94.2%-96.2%)。医生在SAH患者中阳性预测值更高[88.9%(95%CI:76.5%-95.2%)和56.9%(95%CI:42.2%-70.4%),p=0.001],在非SAH患者中阴性预测值更高[83.7%(95%CI:76.2%-89.2%)和94.0%(95%CI:90.7%-96.2%),p<0.001]。医生的平均召回率分别为50.3%(95%CI:45.5%-55.0%),54.8%(95%CI:44.1%-65.0%)和49.1%(95%CI:43.9%-54.4%)。模型的敏感性稍高,在三个亚组中分别为69.8%(95%CI:56.5%-80.5%,p=0.119],80.0%(95%CI:49.0%-94.3%,p=0.636)和67.4%(95%CI:52.5%-79.6%,p=0.182);阴性预测值稍高,分别为94.6%(95%CI:91.4%-96.7%,p=0.390),88.9%(95%CI:67.2%-96.9%,p=0.830)和95.0%(95%CI:91.8%-97.0%,p=0.487);召回率稍高,分别为59.2%(95%CI:47.5%-69.8%,p=0.164),64.3%(95%CI:38.8%-83.7%,p=0.506)和57.9%(95%CI:45.0%-69.8%,p=0.220);但以上参数的差异均无统计学意义(所有p>0.05)。医生的平均诊断时间为30.1秒/例(95%CI:29.2-31.0),模型的为18.2秒/例(95%CI:17.9-18.4),两组间具有显著统计学差异(p<0.001)。数据集8共纳入316例患者(包含60例动脉瘤患者共76枚动脉瘤),其诊断效能与数据集7相近。在总体、SAH和非SAH三组中,医生平均敏感性和特异性分别为70.8%(95%CI:65.9%-75.3%),95.6%(95%CI:94.4%-96.5%);81.3%(95%CI:74.3%-86.8%),96.2%(95%CI:91.4%-98.4%);63.3%(95%CI:56.6%-69.6%),95.5%(95%CI:94.3%-96.5%)。在SAH患者中阳性预测值高[96.1%(95%CI:91.1%-98.3%)和67.7%(95%CI:50.5%-81.1%),p<0.001],而在非SAH患者中阴性预测值稍高[82.5%(95%CI:63.9%-92.6%)和94.5%(95%CI:90.8%-96.8%),p<0.001]。医生的平均召回率分别为61.6%(95%CI:57.1%-66.0%),72.4%(95%CI:65.7%-78.2%)和53.8%(95%CI:47.8%-59.7%)。模型展现出稍高的敏感性[81.7%(95%CI:70.1%-89.4%,p=0.082),92.0%(95%CI:75.0%-97.8%,p=0.306)和74.3%(95%CI:57.9%-85.8%,p=0.209)]、阴性预测值[94.5%(95%CI:90.5%-96.9%,p=0.516),88.9%(95%CI:67.2%-96.9%,p=0.683),和95.1%(95%CI:90.9%-97.4%,p=0.772)]和召回率[75.0%(95%CI:64.2%-83.4%,p=0.025),84.8%(95%CI:69.1%-93.3%,p=0.131)和67.4%(95%CI:52.5%-79.5%,p=0.095)],差异无统计学意义。医生平均诊断时间为27.1秒/例(95%CI:26.3-28.0),模型平均诊断时间为19.6秒/例(95%CI:19.3-20.0),两组间具有显著统计学差异(p=0.001)。总体来说,模型与放射科医生结果相比存在非劣性。在AIS场景中,经纳排后数据集9共纳入214例患者(包含10例动脉瘤患者共12枚动脉瘤),本模型显示出优越的特异性[88.7%(95%CI:83.7%-92.4%)]和阴性预测值[96.8%(95%CI:93.2%-98.5%)],因此放射科医生在实际临床实践中可以将注意力更集中于剩下(12.6%)的患动脉瘤风险高的患者。结论:本模型在内部和外部数据中都展现出CTA检测动脉瘤接近甚至超过医生的平均诊断水平,特别是在敏感性和阴性预测值指标上,提示可其作为放射科医生诊断颅内动脉瘤的的辅助工具,在疑似AIS的急诊环境中可以可靠地排除动脉瘤低风险患者,提高诊断速度、准确性和安全性。