论文部分内容阅读
第一部分基于WGCNA筛选肝细胞癌枢纽基因及其功能预测分析目的:采用加权基因共表达网络分析(Weighted gene co-expression network analysis,WGCNA)研究肝细胞癌患者的基因表达数据与临床病理特征之间的关系,构建肝细胞癌(Hepatocellular carcinoma,HCC)基因无尺度网络,寻找HCC枢纽基因及参与的生物学功能。方法:从TCGA数据库网站下载肝细胞癌患者的RNA二代测序数据和相应的临床病理特征数据,再从ICGC数据库网站下载LIRI-JR项目的肝细胞癌RNA二代测序数据和相应的临床病理特征数据。使用limma和edgeR两种R包筛选两个数据库队列中癌组织和正常组织样本之间共同的差异基因。对各数据库采用WGCNA函数包构建无尺度共表达网络及其基因模块的鉴定,在模块-特征关系图中寻找存在最高相关性的基因模块和相应的临床病理特征。利用基于基因显著性(Gene significance)和模块身份(Module membership)筛选目标模块的枢纽基因。最后对两数据库中共同的枢纽基因进行KEGG和GO通路富集分析探索其生物学功能。结果:分析TCGA数据库50对肝细胞癌和癌旁配对组织,374例肝细胞癌组织及50例癌旁组织和ICGC数据库LIRI-JR项目的240例肝细胞癌和197例正常组织的mRNA测序数据,共同鉴定出1672个差异基因,将共同的差异基因作为目标基因进行WGCNA分析。WGCNA分析最终获得一个研究模块(turquoise模块),筛选共同的枢纽基因为40个,GO和KEGG富集分析提示这些枢纽基因可能参与细胞周期循环、细胞衰老、有丝分裂、染色体浓缩和分离、纺锤体微管、微管蛋白结合、DNA复制、蛋白质丝氨酸、p53信号通路、FoxO信号通路、Fanconi贫血途径等通路有关。结论:研究将三个队列的共同差异表达基因进行WGCNA分析,获得与肿瘤组织学分级以及生存状态高度相关的40个共同枢纽基因,GO及KEGG分析提示这40个枢纽基因可能在参与肿瘤的发生及发展中起到重要的作用。这将有助于对肝细胞癌的可能发生机制进行较为详细的解释和补充,为肝细胞癌的基础研究提供理论依据。第二部分基于枢纽基因构建Cox比例风险回归模型目的:利用Cox回归分析和Lasso回归分析方法,构建基于第一部分得到的枢纽基因的Cox比例风险回归模型,探索模型对HCC患者生存预后的预测价值。方法:本研究使用TCGA数据库肝细胞癌队列中已去除离群样本的273例患者数据和相应的临床病理特征信息作为探索队列,ICGC数据库LIRI-JR项目的肝细胞癌队列中已去除离群样本的220例患者数据和相应的临床病理特征信息作为验证队列。在探索队列中,对40个枢纽基因进行单因素Cox分析和Lasso回归分析以及多因素Cox比例风险回归方法筛选对肝细胞癌患者预后预测最有价值的枢纽基因并建立风险预测模型。然后通过验证队列验证风险预测模型在预测肝细胞癌患者生存预后的价值和稳定性。结果:通过单因素Cox分析和Lasso回归分析,在探索队列最终筛选出的16个枢纽基因进入多因素Cox比例风险回归分析;通过多因素Cox比例风险回归筛选8个潜在的与总生存期(OS)显著相关的枢纽基因。我们建立了8个基因(CDC45,CENPA,MCM10,MELK,CDC20,ASF1B,FANCD2,NCAPH)的线性预后模型为:-0.999*ASF1B表达水平+0.561*CDC45表达水平+0.567*CENPA表达水平-0.886*FANCD2表达水平+0.486*MCM10表达水平+0.448*MELK表达水平-0.475*NCAPH表达水平+0.264*CDC20表达水平。我们根据预后指标将患者分为高风险组和低风险组。8个基因组合是肝细胞癌患者总生存期(OS)的独立预后生物标志物,8个基因组合标志物预测3年生存率的ROC曲线AUC为0.803,并且在验证队列里这8基因组合预测3年生存率的ROC曲线AUC为0.795,提示8基因组合模型在预测三年生存方面表现良好的性能。结论:基于第一部分的枢纽基因构建了包含8种基因的新型标志物,可以强有力地预测肝细胞癌患者的生存。此外,鉴定的8基因组合模型在预测三年生存方面表现出良好的性能,并且是肝细胞癌患者生存预测的独立预后指标,有利于筛选高危群体,指导临床工作者制定个体化治疗方案。第三部分筛选肝细胞癌铁死亡相关基因及其相关的非编码RNA目的:利用TCGA数据库肝细胞癌RNA测序数据和文献检索以及KEGG铁死亡通路,筛选出与肝细胞癌铁死亡相关的基因及其相关的非编码RNA。方法:通过中外文献检索和KEGG铁死亡通路筛选出与铁死亡相关的基因,再通过第一部分得到的枢纽基因取交集,找出肝细胞癌铁死亡相关基因。在TCGA数据库肝细胞癌RNA测序数据中转化得到16329个非编码RNA(14448个Lnc RNA和1881个mi RNA),我们将这些非编码RNA进行差异表达显著性分析,得到的差异表达非编码RNA与肝细胞癌铁死亡相关基因的表达谱数据整合到一起进行spearman相关分析和WGCNA分析,鉴定出与肝细胞癌铁死亡基因较密切的非编码RNA,并将最相关的非编码RNA进行临床病理学分析和GSEA功能富集分析。结果:通过中外文献检索和KEGG铁死亡通路筛选得到103个与铁死亡相关的基因。这103个与铁死亡相关的基因与40个枢纽基因取交集最终得到肝细胞癌铁死亡相关的基因为FANCD2。鉴定出1888个差异表达显著的非编码RNA。我们将1888个差异表达显著的非编码RNA(1632个Lnc RNA和256个mi RNA)和FANCD2肝细胞癌表达谱数据整合到一起进行spearman相关分析,发现三个非编码RNA(CTD-2510F5.4,DDX11-AS1,hsa-mir-139)与FANCD2的表达最密切,其中最相关的非编码RNA为CTD-2510F5.4,且CTD-2510F5.4只与第一部分所分析的turquoise基因模块相关,且相关系数最大。GSEA分析表明,Lnc RNA CTD-2510F5.4参与许多铁死亡相关的关键途径并与肿瘤发生相关,包括氧化还原酶活性、谷胱甘肽过氧化物酶活性、铁离子结合、P53信号通路,NOTCH信号通路,ERBB信号通路和癌症的途径等。结论:本研究通过中外文献检索并结合第一部分的研究结果,挖掘出与肝细胞癌铁死亡相关的基因(FANCD2),并首次发现Lnc RNA CTD-2510F5.4在HCC中表达较差,HCC患者的存活率降低。这可能是HCC病理分类,临床治疗和预后的潜在新型生物标志物和治疗靶点。通过GSEA富集分析提示CTD-2510F5.4可能与铁死亡相关。然而,这些假设需要进一步通过体内外实验及更大规模的多中心研究进行验证和确认。