论文部分内容阅读
目的:肺癌是最常见的恶性肿瘤之一,在世界范围内居于肿瘤所致死亡人数之首,每年超过1300万。60%左右的腺癌患者发现即为中晚期,很大一部分失去了手术治疗的机会,生存期大幅度缩短。近年来,靶向治疗已成为各种恶性肿瘤治疗的关注焦点,在肺癌领域备受瞩目。表皮生长因子受体(EGFR)是目前研究最为深入且能够有效治疗肺癌的靶点之一,与之相关的靶向治疗已经成为先于系统化疗的一线治疗方案。治疗方案的变化极大的提高了EGFR检测的地位,对于晚期肺癌患者,组织标本主要通过经胸穿刺活检和气管镜活检获得,这两种途径都是有创性检查,患者往往无法接受,且可能受肿瘤异质性的误导。影像组学是指从数字医学图像中系统的提取和分析图像,转化为可挖掘的特征数据,用于为临床的诊断和治疗提供决策。在肺癌的基因领域,已经有相关研究证明放射组学与基因突变之间的联系。本研究第一部分尝试应用CT图像找出一种能预测晚期肺腺癌EGFR突变的影像组学标签,从而达到简单,经济,无创获取EGFR基因突变状态的方法。常规的预测肺癌患者生存期的方法,主要是以肿瘤分期为基础,但在临床实践中,同一分期的患者,即使治疗方案相同,患者对治疗的反应差异很大,生存期差异同样巨大。所以临床迫切需要一种比肿瘤分期更加准确的评估预后的方法来估算患者的生存期,从而合理的选择治疗方案和安排治疗顺序。以往的研究已经证明组学标签与肿瘤的预后存在关联,本研究第二部分尝试用影像组学的方法对晚期肺腺癌患者总生存期进行预测。研究方法:本研究收集了2013年至2016年于我院治疗的的晚期肺腺癌患者449人。入组标准:第一部分如下:1,所有患者均经过CT引导下经皮经胸活检或经气管镜活检病理证实为肺腺癌,并进行了EGFR基因检测明确突变状态。2,根据第八版肺癌TNM分期标准分类为IIIB-IV期。3,ECOG评分为0-3分。4,之前未接受任何抗肿瘤治疗。5,在我院进行了治疗前的肺增强CT检查,且在指定的2种CT上进行。第二部分在第一部分入组标准中新增:根据EGFR突变状态选择初始治疗方案,EGFR敏感突变病人初始应用靶向治疗,其余病人初始选用含铂类的联合化疗,但指定的CT类型放宽至3种。第一部分入组201名患者,第二部分入组165名患者。均按7:3比例分为训练组和验证组。获取所有病人的增强及平扫图像,全部传入PACS系统。预处理:在图像分割前采用线性插值算法对不同的体素点进行标准化,然后使用高斯滤波移除干扰信号。感兴趣的区域(ROI)勾画及特征提取:由具有7年及13年胸部放射诊断经验的影像科医生使用软件ITK-Snap参考纵隔和肺窗在平扫和增强图像逐层手动勾画三维靶区。应用软件A.K.从分割出ROI图像中提取三种类型的组学特征共396种。模型建立及评估:第一部分采用套索算法(Lasso)筛选特征,再分别在平扫数据和增强数据中,应用这些特征运用多种机器学习的方法建立模型,并将验证组的数据代入到建立的模型中,应用ROC曲线分析评价预测效能,计算AUC值进行比较,最终得到一种预测效能最高的模型。再将临床资料,包括性别,年龄,吸烟史,与放射组学标签一起,应用多元logistic回归制作列线图。使用C-Index分别在训练组和验证组检验列线图的区分能力,然后绘制校准曲线验证其校准性,用Hosmer-Lemeshow检验比较校准性差异。最后应用决策曲线评估列线图的临床价值。第二部分用Lasso-Cox算法筛选特征,再应用Cox回归建立组学模型。同时,用临床资料通过单因素及多因素Cox分析建立模型。然后应用两种方法比较组学模型的诊断的效能。第一种是预测长短生存期,分别以1,2,3年为界限,应用ROC曲线进行检验,与临床模型比较。第二种是预测高低死亡风险,用生存曲线检验,与肿瘤分期进行比较。比较完毕后,将得出的组学标签和筛选出临床资料共同代入多变量Cox回归以建立整体预测模型,分别以1,2,3年为界限,应用ROC曲线进行检验,并推导出列线图,得出1年,2年,3年的生存概率,最后分别在训练组和验证组应用C-Index检验区分度,用校准曲线检验校准度结果:第一部分:从ROI中提取了396种影像组学特征。经过LASSO降维后,平扫数据选择了11种特征,增强数据选择了10种特征用于建立模型。将筛选出的特征分别代入6种预测模型后,分别绘制ROC曲线,计算AUC值。首先比较同一种机器学习模型中,增强数据的AUC值皆高于平扫数据。然后选择增强数据内的每种机器学习方法进行横向比较,logistic回归模型的AUC值最高,故最终选择增强数据的logistic回归模型进行之后的操作。再次应用logistic回归建立组学及临床总体预测模型,并绘制列线图。模型在训练组的C-index为0.908(95%CI,0.862 to0.954),验证组0.835(95%CI,0.825 to 0.845)。应用校准曲线验证列线图,并进行Hosmer-Lemeshow检验,训练组结果p=0.621,验证组p=0.605,可见无论在训练组还是验证组,模型预测与真实结果拟合良好。从决策曲线可知,在训练组,应用这两种预测方法预测EGFR状态,较“全预测”或“不预测”决策占优。在测试组,当阈值>20%时,应用这两种预测方法预测EGFR状态,较“全预测”或“不预测”决策占优。第二部分:在训练组中,应用Lasso-Cox回归模型从396个特征中筛选了6个与生存期有关的特征。再代入Cox多因素回归模型,并得出各个特征的系数,在此基础上推导出Rad-score。模型在训练组C-index=0.721(95%CI=0.672,0.770),在验证组的C-index=0.676(95%CI=0.583,0.769)。在评估模型诊断效能方面,首先以1年,2年,3年为分界,将训练组和验证组分为长短生存期组,然后用ROC曲线评价组学模型的预测能力,训练组1年,2年,3年生存判定的AUC分别为0.738,0.836,0.759,验证组1年,2年,3年生存判定的AUC分别为0.729,0.682,0.699。然后根据X-tile软件选取1.81为截断值在训练组和验证组中分高低风险亚组,绘制生存曲线,训练组Log-rank<0.0001,验证组Log-rank=0.007,差别均有统计学意义,而以肿瘤分期划分则无统计学意义。将得出的组学标签和单因素Cox分析筛选出3个临床资料(EGFR敏感突变,ECOG评分,脑转移),共同代入多因素Cox回归,建立整体预测模型,并推导出列线图,分别对患者的1年,2年,3年生存期进行预测。对列线图进行验证采用C-index及校准曲线的方法。训练组的C-index=0.798(95%CI=0.758,0.838),验证组的C-index=0.709(95%CI=0.626,0.792),两组的C-index均较单纯应用组学标签或单纯应用临床资料建立的模型的C-index要高。校准曲线与真实数据拟合良好。结论:基于肺增强CT建立的影像组学模型可以针对晚期肺腺癌患者的EGFR突变状态进行有效的预测。相比于肺平扫CT图像,肺增强CT图像能提供更多的肿瘤信息,提高预测的效能。组学模型与晚期肺腺癌患者的总生存期具有一定程度的关联。临床模型对1年的生存预测较准确,组学模型对2年的生存预测较准确,整体预测模型对3年的生存期预测较准确。临床可根据需要选择合适的模型。