机器学习算法在非小型细胞肺癌癌症阶段分类上的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:xing123qw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因测序技术的发展,生物信息数据呈现爆炸式增长,如何从海量生物数据中挖掘出隐藏的生物模式和信息,成为生物信息学领域的一个重要课题。近年来机器学习算法在癌症研究中得到了广泛的应用,非小型细胞肺癌(NSCLC)作为肺癌中最常见的类型以其常年高居首位的致死率一直是癌症研究的热点和难点。NSCLC高死亡率的主要原因就是缺乏肿瘤进展机制的认识,并且相关研究非常有限,本文将机器学习算法应用于NSCLC癌症阶段分类,旨在从全基因组水平寻找NSCLC两种主要亚型肺鳞状细胞癌(LUSC)和肺腺癌(LUAD)癌症进展的关键基因,为病人个性化治疗提供理论依据。针对LUSC和LUAD致病分化与临床表现的不同,本文从不同角度分别对其进行研究。研究中的数据均呈现高维小样本特性,数据中含有大量冗余信息且呈现较强的变量相关性特点。在LUSC肿瘤进展分类模型和特征基因识别的问题中,本文创新性地从特异性、相关性、生物功能以及模式识别分类模型贡献等四个方面综合分析TCGA(The Cancer Genome Atlas)数据库中的基因表达、基因甲基化以及拷贝数变异值三组数据建立癌症进展多类分类模型,寻找LUSC癌症进展中的关键基因。此外对三组数据建立模型进行分类结果比较和相应的机理分析;KEGG(Kyoto Encyclopedia of Genes and Genomes)和IPA(Ingenuity Pathway Analysis)对三类特征基因集在代谢通路水平和基因调控网络水平上的分析证明了其在调控水平上的密切关系,特征基因的分析结果表明识别的关键基因与LUSC肿瘤进展之间有着重要的关系。基于基因表达数据从分子水平上预测腺癌肿瘤进展的问题中,基因表达数据是研究最为广泛,应用最为成熟的一组数据,但是其仍然呈现高维小样本特性的数据特点,为此本文借助机器学习算法实现变量选择与模式分类。为了进一步研究识别特征基因的代表性,肺腺癌,乳腺癌和结肠腺癌的两个独立的数据集TCGA和GEO(Gene Expression Omnibus)分别用作训练和验证数据集。结果在不同的腺癌中确定了不同的特征基因集,并且仅使用这些特征基因的表达数据,就可以在训练数据集中取得足够好的分类精度,但是在验证数据集中的分类结果并不理想。不同腺癌的分类结果证明了我们的方法不依赖于特定的肿瘤类型。此外,特征基因IPA分析和功能分析结果证明本文识别的特征基因的临床应用价值和生物功能;同时为以后研究工作提供了方向。
其他文献
本文是在国家自然科学基金重点项目“水力机械空化特性及对策”(51239005)、国家科技支撑计划项目“大功率灌排泵的研制与开发”(2015BAD20B01)和江苏省博士创新计划“余热排出泵
根据我国的能源现状,煤炭在我国能源消费中的主要地位在近期内将不会发生改变。然而煤炭的大量燃烧会造成严重的环境问题。为了更加高效、环保的利用煤炭资源,对煤燃烧以及污
学位
本文从非线性动力学的角度出发,借助于混沌理论和方法来研究火焰声场响应动力学特性。以声场作用下的甲烷/空气层流火焰作为研究对象,搭建了里克型脉动燃烧实验台。采用双热