论文部分内容阅读
目的:通过生物信息分析学理论与技术方法联合使用相关基因数据库,对TCGA数据库中差异表达的乳腺癌基因进行筛选及统计学处理,得到与患者生存预后相关的基因并据此构建多基因预后模型。获取患者多基因模型评分并纳入患者临床病理信息,构建联合预后模型,从中提取独立预后因子建立乳腺癌预后列线图供临床参考。通过GSEA富集分析、相关基因库查询及文献检索,为乳腺癌患者找出可能的治疗新靶点与预后新标记物提供新思路。方法:1、基于TCGA数据库筛选并最终纳入1109例乳腺癌组织和113例癌旁组织,下载该样本的基因表达数据,同时下载该样本的相应临床病理信息,包括患者的性别、年龄、种族、临床病理分级、总生存天数(overall survival,OS)及生存状态等数据资料。2、利用R语言的“edge R”程序包对乳腺癌基因进行差异分析,以校正后的P<0.05且差异表达倍数>2(FDR<0.05且|log2FC|=1)为筛选标准,获得乳腺癌差异表达基因目录。3、将患者临床病理数据与差异基因表达数据合并分析,使用R软件程序包进行单因素COX回归分析并对分析结果行LASSO回归分析,通过参数Lambda值筛选差异基因优化组合进行后续分析。根据所筛选的差异基因构建基因表达联合临床病理数据的矩阵并进行多因素COX回归分析,逐步法进一步筛选,构建多基因预后模型。通过多基因预后模型中构成基因的表达量与多因素回归系数,构建生存相关的风险评估模型。4、整理乳腺癌患者多基因模型风险值(Risk Score RS)值与临床病理信息如患者编号、年龄(岁)、临床分期(Ⅰ期、Ⅱ期、Ⅲ期、Ⅳ期),性别(男/女)、总生存天数及生存状态。以总生存天数与生存状态两者为应变量其余皆为自变量,进行单因素COX回归分析。将分析结果中满足筛选条件的自变量纳入多因素COX回归分析模型,采用逐步法筛选变量并确定最终的独立预后因子,根据独立预后因子建立列线图(Nomogram)。5、利用GSEA-4.10软件对代表性基因进行富集分析,同时采用GEPIA在线分析工具对多基因模型中代表性基因进行相关分析,通过HPA数据库查询并下载相关基因的病理免疫组化及细胞免疫荧光图谱。结果:1、最终得到由(MMP13、DCTPP1、XG、DLG3、MAL2、PAICS、PEX5L、PCDHGA2、BAMBI、AC011294.1、FIBCD1、AC026785.3、TH、BSND、ZPBP2、GVINP2、CBX1P3、SPRR4、AC093809.1、CCDC74BP1)20个基因组成的多基因预后模型。2、联合患者临床信息年龄、临床病理分期构建乳腺癌联合预后模型并根据独立预后因子构建列线图供临床参考,经统计学检验模型均具有较好的模拟和预测效能。3、对20个差异基因分别进行GSEA富集分析,最终得到10个符合筛选条件的基因富集结果,通过GEPIA数据库获得部分基因总存期或无病生存期分析图,并通过HPA数据库得到部分基因的病理免疫组化图与细胞免疫荧光染色图。结论:1、构建乳腺癌联合基因预后模型并通过独立预后因子构建列线图供临床参考。2、联合查阅已有文献,综合分析后本研究表明DCTPP1、DLG3、FIBCD1、MAL2、MMP13、PAICS、XG、PCDHGA2及GVINP2这九个基因可能成为乳腺癌治疗新靶点与新的预后标记物,为乳腺癌患者找出可能的治疗新靶点与预后新标记物提供新思路。