论文部分内容阅读
随着基因测序技术的发展,生物信息数据呈现爆炸式增长,如何从海量生物数据中挖掘出隐藏的生物模式和信息,成为生物信息学领域的一个重要课题。近年来机器学习算法在癌症研究中得到了广泛的应用,非小型细胞肺癌(NSCLC)作为肺癌中最常见的类型以其常年高居首位的致死率一直是癌症研究的热点和难点。NSCLC高死亡率的主要原因就是缺乏肿瘤进展机制的认识,并且相关研究非常有限,本文将机器学习算法应用于NSCLC癌症阶段分类,旨在从全基因组水平寻找NSCLC两种主要亚型肺鳞状细胞癌(LUSC)和肺腺癌(LUAD)癌症进展的关键基因,为病人个性化治疗提供理论依据。针对LUSC和LUAD致病分化与临床表现的不同,本文从不同角度分别对其进行研究。研究中的数据均呈现高维小样本特性,数据中含有大量冗余信息且呈现较强的变量相关性特点。在LUSC肿瘤进展分类模型和特征基因识别的问题中,本文创新性地从特异性、相关性、生物功能以及模式识别分类模型贡献等四个方面综合分析TCGA(The Cancer Genome Atlas)数据库中的基因表达、基因甲基化以及拷贝数变异值三组数据建立癌症进展多类分类模型,寻找LUSC癌症进展中的关键基因。此外对三组数据建立模型进行分类结果比较和相应的机理分析;KEGG(Kyoto Encyclopedia of Genes and Genomes)和IPA(Ingenuity Pathway Analysis)对三类特征基因集在代谢通路水平和基因调控网络水平上的分析证明了其在调控水平上的密切关系,特征基因的分析结果表明识别的关键基因与LUSC肿瘤进展之间有着重要的关系。基于基因表达数据从分子水平上预测腺癌肿瘤进展的问题中,基因表达数据是研究最为广泛,应用最为成熟的一组数据,但是其仍然呈现高维小样本特性的数据特点,为此本文借助机器学习算法实现变量选择与模式分类。为了进一步研究识别特征基因的代表性,肺腺癌,乳腺癌和结肠腺癌的两个独立的数据集TCGA和GEO(Gene Expression Omnibus)分别用作训练和验证数据集。结果在不同的腺癌中确定了不同的特征基因集,并且仅使用这些特征基因的表达数据,就可以在训练数据集中取得足够好的分类精度,但是在验证数据集中的分类结果并不理想。不同腺癌的分类结果证明了我们的方法不依赖于特定的肿瘤类型。此外,特征基因IPA分析和功能分析结果证明本文识别的特征基因的临床应用价值和生物功能;同时为以后研究工作提供了方向。