论文部分内容阅读
肺癌是呼吸系统最常见的一种恶性肿瘤。在我国,肺癌的发病率和死亡率都高居第一位。肺癌的早期缺乏典型症状,一旦发现,患者大多处于中晚期且易伴随远处转移,治疗变得非常困难。肺癌死亡率较高的另一个原因是它预后较差,相当一部分患者会在治疗后出现复发,肺癌的早期诊断和预后分析在提高生存率方面具有重要意义。高通量测序技术的发展及分析方法的出现,为肺癌的预测和治疗带来了新的方向。在肿瘤的形成过程中,需要多种基因参与并相互作用,通过高通量测序技术可得到肺癌的全基因表达数据,利用分子学机制研究肺癌的发生和发展,可为肺癌的早期发现和预后诊断提供理论支持。本研究从TCGA(癌症基因组图谱)和GEO两个公共数据库中获取数据集作为研究对象,建立了一套肺癌的“诊断+预测”系统,该系统可以筛选出肺癌的易感基因,将其作为特征构建出肺癌的诊断模型,并判断出肺癌的亚型类型,同时,系统对肺癌患者的恶性程度及康复的可能性做出了预测,可达到较高的精度。针对肺癌的早期诊断,本研究提出了一套基于机器学习的肺癌易感基因筛选及亚型分类模型,首先从TCGA数据库中获取到肺癌的转录组数据及临床信息,运用R语言,结合limma、EdgeR及DEseq三种方法进行差异表达分析,然后通过GO功能和KEGG通路分析进行精确的筛选,确定出肺癌易感基因,进行层次聚类分析并绘制heatmap图。分别通过逻辑回归、决策树、支持向量机、软投票器四种机器学习的方法构建出肺癌预测模型,并将模型在不同方法得到的数据集上进行验证。并且,根据肺癌易感基因判别模型的构建结果选择出对肺癌敏感性较强的模型,构建肺癌亚型分类模型。通过对重要通路中的基因功能进行分析,结合层次聚类热图,可以看到本研究识别出的易感基因能明显区分两类样本,并在肺癌的发生和发展过程中起着关键作用,这对了解肺癌的发病机制和肺癌早期诊断十分重要。针对肺癌治愈可能性的预测,本研究提出了一套基于深度神经网络的肺癌恶性程度及康复预测模型,从GEO数据库中获取肺癌样本作为数据集,采用统计学方法和模型方法结合的特征选择方法选择特征基因,将特征基因喂入深度神经网络进行训练,并采用反向梯度下降算法进行参数梯度更新,该模型的训练时间比其他机器学习算法要长,但能达到更高的预测准确率。通过对肺癌的恶性程度和康复可能性进行预测,可辅助医生安排下一步的治疗计划,对临床治疗有重要的指导意义。本研究的工作基于上述五大模块:肺癌易感基因的筛选、肺癌诊断模型的构建、肺癌的亚型分类、肺癌恶性程度分类及肺癌康复性预测模型,形成了一套肺癌综合预测系统,不仅可以对数据分析和处理,选择出肺癌的易感基因,同时可以完成肺癌的诊断及治疗后康复性的预测,可以帮助患者及早发现病情、辅助医生临床诊断以及指导制定下一步的治疗计划。