论文部分内容阅读
背景和目的我国肝癌死亡率居高不下,是亟待解决的重要公共卫生问题之一。做好肝癌的早诊早治是降低其死亡率的有效措施之一。目前所运用的肝癌早期诊断方法灵敏度较低,不能满足临床诊断和公共卫生筛查的需求。大量研究显示肿瘤相关抗原(tumor associated antigen,TAA)的自身抗体(anti-TAA autoantibody,TAAb)可以作为肝癌早期诊断的标志物。本研究旨在通过运用血清蛋白质组学分析技术和蛋白质芯片技术筛选肿瘤相关抗原,检测其抗体在人群中的水平,经过评价优化选出一组对肝癌具有较高诊断价值的TAAbs,建立诊断模型并加以验证,从而为肝癌早期非侵入性诊断方法的建立提供科学依据。材料和方法1.肝癌TAAs的筛选(1)血清蛋白质组学分析技术(serological proteome analysis,SERPA)筛选肝癌TAAs。基于Western blotting技术,利用肝癌HepG2细胞株全蛋白为抗原库分别与100例肝癌,50例健康对照的血清进行免疫反应,初步判断候选TAAs的分子量大小及筛选出含有其抗体的阳性病例血清和不含其抗体的阴性对照血清;利用双向电泳技术,将三等份肝癌HepG2细胞株全蛋白进行双向分离,其中两块凝胶上的蛋白转印至PVDF膜上,分别与筛选出的阳性血清和阴性血清进行免疫反应,对比两者差异,并在第三块经考马斯亮蓝染色的凝胶上找到并挖取对应的点;利用蛋白质谱分析技术对所筛选出的蛋白点进行鉴定。(2)蛋白质芯片技术筛选肝癌TAAs。基于文献报道的癌症驱动基因定制含有154种抗原的蛋白质芯片,检测100例肝癌和50例健康对照血清中各抗原所对应的自身抗体水平。利用Mann Whitney-U检验、ROC曲线分析、以及设定阈值后计算阳性率等方法筛选出病例组高于对照组的TAAs;将单变量有意义的指标纳入Logistic回归模型进行多变量筛选;最终结合AUC值和Logistic回归的结果确定待后续验证的TAAs。2.肝癌TAAbs的验证及评价(1)基于间接酶联免疫吸附实验(indirect enzyme-linked immunosorbent assay,ELISA)技术,本研究设计了独立的两阶段的验证。第一阶段纳入286例肝癌和286例健康对照的血清;第二阶段纳入160例肝癌、160例健康对照和127例肝硬化的血清。(2)采用MannWhitney-U检验,分析两阶段肝癌组与健康对照组间各TAAb水平的差异;绘制ROC曲线,评价各TAAb作为诊断标志物的诊断价值;两阶段中,自身抗体水平在肝癌组均高于健康对照组的TAAs,用于后续组合的优化及模型构建。(3)针对第二阶段纳入的样本,观察各TAAb在健康对照组、肝硬化组、肝癌的不同TNM分期亚组间的变化趋势,推测TAAbs可能出现的时间节点。3.基于筛选出并通过验证的TAAbs,肝癌诊断模型的构建、验证及评价(1)利用Logistic回归、LASSO回归、并联诊断试验、经典决策树模型、随机森林模型、支持向量机六种方法在第一阶段(训练集)样本中构建肝癌的诊断模型。利用第二阶段中肝癌和健康对照(验证集)的样本分别对以上模型进行验证。评价并比较各模型的诊断效果,选出最优模型。(2)分析比较最优模型在肝癌各临床亚组(TNM分期、是否转移、是否有乙肝史、是否有家族史)中的诊断效果。(3)分析比较最优模型在肝硬化患者中的诊断效果。(4)分析比较最优模型在AFP阴、阳性肝癌患者中的诊断效果。结果1.利用SERPA技术发现并鉴定出6个TAAs,分别为:GAPDH、ENO1、HSPD1、PGK1、TPM3、HSP90。利用蛋白质芯片技术筛选出11个TAAs为:GNA11、IDH1、PTEN、NPM1、Survivin、MSH2、SRSF2、PTCH1、PAX5、GNAS、TP53,它们的自身抗体在筛选阶段的AUC值分别为:0.749、0.712、0.693、0.691、0.685、0.685、0.656、0.658、0.616、0.618、0.631。2.第一阶段验证结果显示:Survivin、TP53、NPM1、IDH1、MSH2、GNAS、SRSF2、GNA11、PTCH1、ENO1和HSP90 11个TAAs的自身抗体水平在肝癌组高于健康对照组。通过绘制ROC曲线评价各TAAb的诊断价值发现GNAS、Survivin、TP53的自身抗体AUC面积最大,分别为0.738、0.737和0.705。在第二阶段纳入样本中对以上11个TAAbs进行检测,发现这11个TAAbs的水平仍表现为肝癌组高于健康对照组,ROC曲线分析发现GNAS、Survivin和TP53的自身抗体诊断效果仍然最好,AUC面积均在0.700以上。两阶段验证和评价结果基本一致。通过分析第二阶段纳入的健康对照、肝硬化及肝癌各TNM分期亚组患者血清中TAAbs的表达水平及变化趋势,发现11个TAAbs均表现为肝硬化组和TNM-I期肝癌组的中位表达水平高于中晚期肝癌组,推测TAAbs可能出现在肝硬化向肝癌转变的过程中,提示TAAbs可以作为肝癌早期诊断标志物。3.评价Logistic回归、LASSO回归、并联诊断试验、经典决策树模型、随机森林模型和支持向量机6种方法构建的肝癌诊断模型,发现在训练集/验证集中它们的诊断符合率分别为:76.4%/76.6%、75.5%/76.6%、71.3%/66.6%、74.3%/62.8%、78.3%/73.1%和92.8%/63.1%。比较各模型在两阶段中诊断效果的一致性,发现Logistic回归和随机森林模型较稳定。但随机森林模型纳入的变量数目较多且诊断效果并没有明显优于Logistic回归模型,最终选择Logistic回归模型为本次构建的最优诊断模型,该模型的诊断概率表达为:P(HCC)=1/(1+ Exp(2.309-6.391 × Survivin-4.409 × TP53+6.696 × NPM1-12.056 × GNAS+12.380 × SRSF2-3.471 × PTCH1+4.274 × ENO1-5.021 × HSP90)),该模型在训练集和验证集中诊断肝癌时ROC曲线下面积分别为0.845和0.844,灵敏度分别为74.1%和68.1%,特异度分别为78.7%和85.0%。该模型在肝癌各临床亚组间的诊断效果差异均无统计学意义。针对第二阶段纳入的样本,若设病例组为肝癌人群,对照组分别为肝硬化人群、肝硬化和健康人群、健康人群,绘制Logistic回归模型预测概率的ROC曲线,AUC值分别为0.638、0.753、0.844,提示该模型在无症状人群的早期筛查中应用价值更大。Logistic回归模型在AFP阴性肝癌与AFP阳性肝癌中的诊断效果差异无统计学意义。当诊断AFP阴性肝癌时,该模型在训练集和验证集中ROC曲线下面积分别为:0.864和0.836。当Logistic回归模型与AFP联合诊断肝癌时,在训练集和验证集中可分别提高诊断符合率到88.3%和89.3%,提高灵敏度至87.3%和85.0%,提高特异度为89.8%和93.6%。结论1.基于血清蛋白质组学分析(SERPA)技术和蛋白质芯片技术发现并经两阶段验证过的 11 个 TAAs(Survivin、TP53、NPM1、IDH1、MSH2、GNAS、SRSF2、GNA11、PTCH1、ENO1和HSP90)被初步确定为肿瘤相关抗原,它们的自身抗体在早期肝癌和AFP阴性肝癌的免疫诊断中有潜在的应用价值。2.各自身抗体在肝硬化患者以及TNM-I期肝癌患者中水平高于肝癌中晚期患者,推测自身抗体可能出现在肝硬化向肝癌转变的过程中,可以作为指示肝癌早期发生的生物标志物。3.通过评价比较多种统计学方法构建的肝癌诊断模型,Logistic回归模型是本研究中可用于肝癌的诊断的最优模型;该模型在AFP阴性肝癌的诊断以及无症状人群的早期筛查中具有更重要的价值;该模型与AFP联用可明显提高肝癌的诊断效能。