基于CTA的颅内动脉瘤自动化检测和分割的深度学习模型的开发、验证和临床应用研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:ziyoucunzai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
第一部分基于CTA的颅内动脉瘤自动化检测和分割的深度学习模型的开发目的:开发基于头颅CTA去骨图像的颅内动脉瘤深度学习算法的自动化检测和分割模型,并在独立的内部数据和外部数据中验证其效能。方法:本研究回顾性收集2009年7月到2017年3月在东部战区总医院进行头颅CTA且随后进行了DSA的患者(数据集1),将其随机划分为训练/调试/测试组。该模型通过训练数据由深度学习框架进行构建,使用调试数据集选择最佳超参数,在测试数据集中进行模型效能验证。评估的参数包括在患者水平的敏感性、特异性、准确性、阴性预测值、阳性预测值和动脉瘤水平的召回率、假阳性率、Dice系数。收集东部战区总医院2017年4月到2017年12月同时进行头颅CTA和DSA的患者作为独立内部验证数据(数据集2),收集南京脑科医院2019年1月到2019年7月间同时进行头颅CTA和DSA的患者(数据集3)作为独立外部验证数据对本模型进行验证。使用95%Wilson评分置信区间(confidence interval,CI)评估各统计量估计值的变异性,采用χ2检验或Fisher精确检验分析不同组间诊断效能的差异。结果:数据集1共纳入病例1177例,动脉瘤患者869例,对照组308例(其中影像资料显示血管正常病例257例,颅内动脉狭窄病例51例)。训练集包含927例(动脉瘤患者744例,对照183例),调试集100例(动脉瘤患者和对照组各50例),测试集150例(动脉瘤患者和对照组各75例)。模型结果显示,当假阳性率在0.29/例(95%CI:0.23-0.37)时,模型效能最佳,此时的敏感性最高为97.3%(95%CI:90.8%-99.3%),特异性为74.7%(95%CI:63.8%-83.1%),准确性为86.0%(95%CI:79.5%-90.7%),阳性预测值为79.4%(95%CI:70.0%-86.4%),阴性预测值为96.6%(95%CI:88.3%-99.1%);在动脉瘤水平,召回率为95.6%(95%CI:89.1%-98.3%),Dice系数为0.752(95%CI:0.708-0.796)。数据集2包含245例(动脉瘤患者111例,对照组134例),本模型的准确性、敏感性、特异性分别为86.1%(95%CI:81.2%-89.9%),88.3%(95%CI:81.0%-93.0%)和84.3%(95%CI:77.2%-89.5%),召回率为79.7%(95%CI:72.5%-85.4%),假阳性为0.26/例(95%CI:0.21-0.32);数据集3包含211例(动脉瘤患者39例,对照组172例),其准确性、敏感性和特异性分别是80.1%(95%CI:74.2%-84.9%)、82.1%(95%CI:67.3%-91.0%)和79.7%(95%CI:73.0%-85.0%),召回率为72.3%(95%CI:58.2%-83.1%),假阳性率为0.27/例(95%CI:0.22-0.34)。结论:本研究基于有金标准DSA验证的CTA影像数据,研发了颅内动脉瘤自动化检测和分割的深度学习模型,在内外部验证数据中都显示了较高的敏感性和分割准确性。第二部分基于CTA的颅内动脉瘤自动化检测和分割的深度学习模型的综合验证研究目的:评估影响CTA颅内动脉瘤自动化检测和分割的深度学习模型的诊断效能的相关因素,包括困难样本、图像质量和CT机型。方法:针对困难样本的研究,本研究回顾性搜集2009年7月到2017年3月在我院行头颅CTA和DSA的患者,困难样本定义为在CTA上无法明确显示而在DSA上提示有动脉瘤的患者(数据集4),使用本模型进行动脉瘤的自动化检测。针对图像质量,本研究回顾性收集2018年在我院行头颅CTA且经过DSA验证的患者(数据集5),基于噪声程度、血管锐利度和整体质量,按照4分法进行CTA图像质量评分,分别分析本模型对不同评分图像的诊断效能。针对CT设备厂商的影响,本研究回顾性收集2013-2018年在天津第一中心医院进行头颅CTA和DSA的患者(数据集6),按照CT机型(GE Revolution、Siemens SOMATOM Definition Flash和Toshiba Aquilion One)进行分组,分别分析本模型对不同厂商的影像的诊断效能。评估的参数包括在患者水平(敏感性、特异性、准确性、阴性预测值、阳性预测值)和动脉瘤水平(召回率、假阳性率、Dice系数)。使用95%Wilson评分置信区间评估各统计量估计值的变异性,采用χ2检验或Fisher精确检验分析不同组间诊断效能的差异。p<0.05为双侧检验有显著性统计学差异,多重比较采用Bonferroni校正p值法。结果:数据集4共纳入CTA阴性而DSA显示为阳性的动脉瘤患者31例(困难样本,包括43枚动脉瘤)。本模型准确识别其中5例患者共5枚动脉瘤。数据集5共纳入151例患者(包含46例动脉瘤患者共59枚动脉瘤),图像质量为1-4分病例分别为10、43、65和33例。结果表明本模型诊断敏感性和特异性分别为66.7%,85.7%;100%,89.7%;73.9%,85.7%;83.3%,92.6%。组间差异分析并未显示四组间存在统计学差异(所有p>0.05)。数据集6共纳入59例患者(包含39例动脉瘤患者共50枚动脉瘤),其中GE Revolution有13例(动脉瘤患者10例),Simense SOMATOM Definition Flash有21例(动脉瘤患者18例),Toshiba Aquilion One有25例(动脉瘤患者11例)。结果表明本模型敏感性和特异性分别为70.0%,66.7%;72.2%,66.7%;45.5%,50%,各组间差异无明显统计学(所有p>0.05)。结论:本模型对图像质量、CT机型具有优越的容忍性,并且可以凭借深度学习的特殊性能检测到CTA图像上显示不明确的颅内动脉瘤。第三部分基于CTA的颅内动脉瘤自动化检测和分割的深度学习模型的临床应用研究目的:本研究旨在对基于深度学习的CTA颅内动脉瘤自动化检测和分割模型的临床应用情况进行研究,包括临床常规场景及急性缺血性卒中(Acute ischiemic stroke,AIS)场景,并比较该人工智能算法和放射科医生的诊断效能。材料与方法:收集内部和外部各一个数据集进行临床常规的应用并行人机对比分析。内部数据为2019年6月和7月在东部战区总医院行头颅CTA的连续患者(数据集7),外部数据为2018年8月和9月在连云港第一人民医院行头颅CTA的连续患者(数据集8),进行模型阅片诊断。6位放射科医生(初级、中级、高级医生各2位)独立对这些患者进行颅内动脉瘤的诊断。在数据集总体、蛛网膜下腔出血(subarachnoid hemorrhage,SAH)患者和非SAH患者中分别计算并比较模型和人类平均(microaverage)诊断效能和诊断时间。评估的参数包括在患者水平(敏感性、特异性、准确性、阴性预测值、阳性预测值)和动脉瘤水平(召回率、假阳性率、Dice系数)。针对急性缺血性卒中场景的应用,回顾性收集2018年7月到2019年7月因疑似AIS行头颅CTA检查的连续患者(数据集9),使用本模型进行颅内动脉瘤检测。采用独立样本t检验或者Mann–Whitney U检验进行诊断时间的差异比较,采用χ2检验或Fisher精确检验分析不同组间诊断效能的差异。在与放射科医生的比较中,使用优劣效校验。诊断效能的差异的置信区间基于Gart和Nam的偏度校正评分法。结果:数据集7共纳入374例患者(包含53例动脉瘤患者共71枚动脉瘤),在数据集总体、SAH和非SAH患者中,医生平均诊断敏感性和特异性分别为58.5%(95%置信区间[CI]:53.0%-63.8%),95.3%(95%CI:94.2%-96.1%);66.7%(95%CI:54.1%-77.3%),95.4%(95%CI:89.6%-98.0%);56.6%(95%CI:50.5%-62.5%),95.3%(95%CI:94.2%-96.2%)。医生在SAH患者中阳性预测值更高[88.9%(95%CI:76.5%-95.2%)和56.9%(95%CI:42.2%-70.4%),p=0.001],在非SAH患者中阴性预测值更高[83.7%(95%CI:76.2%-89.2%)和94.0%(95%CI:90.7%-96.2%),p<0.001]。医生的平均召回率分别为50.3%(95%CI:45.5%-55.0%),54.8%(95%CI:44.1%-65.0%)和49.1%(95%CI:43.9%-54.4%)。模型的敏感性稍高,在三个亚组中分别为69.8%(95%CI:56.5%-80.5%,p=0.119],80.0%(95%CI:49.0%-94.3%,p=0.636)和67.4%(95%CI:52.5%-79.6%,p=0.182);阴性预测值稍高,分别为94.6%(95%CI:91.4%-96.7%,p=0.390),88.9%(95%CI:67.2%-96.9%,p=0.830)和95.0%(95%CI:91.8%-97.0%,p=0.487);召回率稍高,分别为59.2%(95%CI:47.5%-69.8%,p=0.164),64.3%(95%CI:38.8%-83.7%,p=0.506)和57.9%(95%CI:45.0%-69.8%,p=0.220);但以上参数的差异均无统计学意义(所有p>0.05)。医生的平均诊断时间为30.1秒/例(95%CI:29.2-31.0),模型的为18.2秒/例(95%CI:17.9-18.4),两组间具有显著统计学差异(p<0.001)。数据集8共纳入316例患者(包含60例动脉瘤患者共76枚动脉瘤),其诊断效能与数据集7相近。在总体、SAH和非SAH三组中,医生平均敏感性和特异性分别为70.8%(95%CI:65.9%-75.3%),95.6%(95%CI:94.4%-96.5%);81.3%(95%CI:74.3%-86.8%),96.2%(95%CI:91.4%-98.4%);63.3%(95%CI:56.6%-69.6%),95.5%(95%CI:94.3%-96.5%)。在SAH患者中阳性预测值高[96.1%(95%CI:91.1%-98.3%)和67.7%(95%CI:50.5%-81.1%),p<0.001],而在非SAH患者中阴性预测值稍高[82.5%(95%CI:63.9%-92.6%)和94.5%(95%CI:90.8%-96.8%),p<0.001]。医生的平均召回率分别为61.6%(95%CI:57.1%-66.0%),72.4%(95%CI:65.7%-78.2%)和53.8%(95%CI:47.8%-59.7%)。模型展现出稍高的敏感性[81.7%(95%CI:70.1%-89.4%,p=0.082),92.0%(95%CI:75.0%-97.8%,p=0.306)和74.3%(95%CI:57.9%-85.8%,p=0.209)]、阴性预测值[94.5%(95%CI:90.5%-96.9%,p=0.516),88.9%(95%CI:67.2%-96.9%,p=0.683),和95.1%(95%CI:90.9%-97.4%,p=0.772)]和召回率[75.0%(95%CI:64.2%-83.4%,p=0.025),84.8%(95%CI:69.1%-93.3%,p=0.131)和67.4%(95%CI:52.5%-79.5%,p=0.095)],差异无统计学意义。医生平均诊断时间为27.1秒/例(95%CI:26.3-28.0),模型平均诊断时间为19.6秒/例(95%CI:19.3-20.0),两组间具有显著统计学差异(p=0.001)。总体来说,模型与放射科医生结果相比存在非劣性。在AIS场景中,经纳排后数据集9共纳入214例患者(包含10例动脉瘤患者共12枚动脉瘤),本模型显示出优越的特异性[88.7%(95%CI:83.7%-92.4%)]和阴性预测值[96.8%(95%CI:93.2%-98.5%)],因此放射科医生在实际临床实践中可以将注意力更集中于剩下(12.6%)的患动脉瘤风险高的患者。结论:本模型在内部和外部数据中都展现出CTA检测动脉瘤接近甚至超过医生的平均诊断水平,特别是在敏感性和阴性预测值指标上,提示可其作为放射科医生诊断颅内动脉瘤的的辅助工具,在疑似AIS的急诊环境中可以可靠地排除动脉瘤低风险患者,提高诊断速度、准确性和安全性。
其他文献
目的:本研究包括三个部分:第一部分,开展了对特定候选基因与特发性肺纤维化(IPF)的关联性基因学筛查研究,旨在验证在中国汉族人群中,粘蛋白5B(MUC5B)单核苷酸多态性(SNP)rs35705950及异戊酰辅酶A脱氢酶(IVD)SNPrs2034650与IPF的关联性,为认识疾病机制和个体化诊治提供依据。此前研究表明,在不同种族群体特别是白种人群中,上述两个SNP与IPF关联,而在亚洲人群中,它
分布式计算是大规模机器学习和大数据分析的主流,但其性能通常受到不可预测的落后计算节点的严重影响。针对矩阵向量相乘这一众多算法的基础/关键操作,近年来研究者提出了多种编码方案,通过生成计算冗余有效减轻落后节点的影响。其中,基于喷泉码的方案能充分利用落后节点的部分计算结果,但其要求每个计算节点存放充分多的编码数据,造成了高额的存储开销;现有编码方案大多面向精确计算,在译码出精确结果前无法获取准确率较高
信息几何是将微分几何的方法应用于统计问题的学科分支。1945年Rao首次将微分几何的思想引入统计问题,此后数学家们便致力于将这二者结合起来并最终诞生了信息几何这门分支。一般一个统计模型由一组实参数刻画,若赋予其恰当的拓扑则我们可以将其看做流形。其上的Fisher信息矩阵是正定的,因而自然可看作一个黎曼流形。获得了这些几何结构后,微分几何的研究方法就可应用于统计问题中。本文将说明Gauss分布流形是
宝山锑金矿是我国长江中下游锑成矿带中一处典型矿床,成矿地质条件优越。本论文以江西省地矿局投资项目-“江西省北部南华系-震旦系地层矿产资源调查评价”和市场项目-“江西省德安县宝山锑金矿资源储量核实报告”为依托,对该矿床开展了勘查以及矿床地球化学研究,进一步阐明了矿床地质特征,探讨了矿床成因,总结了成矿模式,建立了找矿模型,分析了找矿前景。取得的主要成果如下:本次工作通过坑道编录及化学样分析,进一步查
回归测试是一种保障软件质量的重要方式。随着互联网行业高速发展,软件的规模越来越大,变更越来越快,这导致时间受限的回归测试中,经常会遇到无法执行所有测试用例的情况。测试用例优先级技术(Test Case Prioritization,TCP),能赋予测试用例优先级,从而优先执行更重要的测试,这是一种重要的提高效率的回归测试技术。研究人员在度量TCP技术的有效性时,真实项目缺陷和变异都被广泛研究和应用
环境污染问题日益得到人们的重视,各国政府大力支持纯电动汽车和混合电动汽车的研究与开发。目前电动汽车驱动系统普遍使用的是锂离子电池,但是由于锂离子电池能量密度的限制,难以满足长距离续航的要求。锂氧气电池以O2为正极活性物,理论能量密度达3505 Wh kg-1,媲美于以汽油为燃料的内燃机能量密度,被认为是极具应用前景的下一代储能系统。虽然锂氧气电池近十年来得到了一定的发展,但是仍然存在包括反应过电位
近年来,化学免疫治疗在临床应用中取得了瞩目的成果,越来越多的人认为,为了诱导临床上有效的抗肿瘤反应,需要将免疫疗法与化学疗法相结合。除了联合疗法,有关化疗药物免疫调节性能的研究也引起了人们的重视。以顺铂、卡铂和奥沙利铂为代表的铂类药物是肿瘤治疗中使用最广泛的化学治疗药物,显示出对许多实体瘤的临床疗效,其主要的抗肿瘤机理是通过干扰DNA合成或对DNA产生化学损伤来促使细胞凋亡。近年来多例研究表明铂类
大多数天体物理吸积盘很可能是翘曲的。在X射线双星中,吸积中子星的自旋演化在很大程度上取决于中子星磁场与吸积盘之间的相互作用。本文首先介绍了X射线双星中吸积盘的经典模型。学术界对于由中子星的磁场线通过共面吸积盘施加的力矩已经进行了广泛的研究,但仍然缺乏对翘曲/倾斜吸积盘的相关工作。在本文中,我们建立了一个简化的中子星X射线双星中的翘曲盘模型,其中吸积盘由平直的内盘和外部翘曲部分组成。基于环形磁场分量
随着科技的不断发展,大数据及人工智能技术趋于成熟,这为在线教育的发展注入了新的推动力。在线教育正在逐渐转型成以数据分析、人工智能等现代信息技术为支撑的智慧教育。传统在线教育虽然做到了打破时间和空间的界限,让学生随时随地都可以学习,但也仍然存在一些问题。比如教学方案“千人一面”,缺乏针对性和策略性,课程无法兼顾学生间的个体差异,如基础、理解能力上的差异,老师无法准确了解每个学生的学习进度等。因此,传
抽灌水引发的地面沉降是城市主要地质灾害之一。地面沉降不仅给当地居民日常生活带来严重影响,也制约着当地经济的发展。为了更好地揭示抽灌水作用下地面沉降的机理,本文设计了室内圆柱模型试验,从宏观角度研究了潜水含水层降水及回灌引起黏土层中孔隙水压力和变形的变化规律,并探讨降水和回灌速率对黏性土孔隙水压力和变形的影响。同时设计了室内单向压缩及回弹试验,通过固结压力的增大与减小模拟含水系统中潜水含水层水位的降