论文部分内容阅读
癌症作为威胁人类生命的头号疾病,研究人员对其致病机理的研究已经持续数十年。在后基因组时代,随着各种生物技术和计算机技术的快速发展,各种生物数据也来到了爆发时期,癌症的生物数据也急剧增长,癌症生物数据的种类也在快速增多。与此同时,计算机技术的快速发展,逐渐成为生命科学研究不可缺失的一部分。此外,对于癌症这种在生命系统中由复杂内部相互作用产生的疾病的研究角度已经从局部转向整体。海量的癌症生物数据、计算机技术的快速发展以及癌症研究角度的转变给研究人员提供了一个机会:如何利用计算机技术从各类的海量的癌症大数据中集成多种不同癌症数据源从系统的角度探索其内部功能机制。针对癌症的数据源的海量性及多样性,本文利用计算机技术集成多数据源从系统的角度探索癌症致病机理,展开了若干项研究,主要工作包括:(1)基于癌症多源数据构建以及分析癌症网络。针对目前癌症网络构造数据源片面性导致网络构建不准确的问题,从系统的角度,整合多种网络构建的数据来源方式,多种癌症数据源,提供数据来源较为全面、准确的癌症网络构建方式,以及癌症网络聚类分析功能,给出了一种自动化合成分析癌症网络的辅助工具系统(SACNet)。(2)不同于从局部的相关数据层面研究癌症致病机理,在基于癌症网络构建的基础上,利用网络聚类分析,结合DAVID的基因功能聚类分析工具,以胰腺癌为例,给出了一种探索癌症网络内部生物分子功能作用的方法;基于10种癌症网络,结合差异癌症通路和致病基因,构建癌症共性网络,结合基因功能查询工具(GeneCards),给出一种探索癌症共性网络内部生物分子功能对癌症致病机理的影响的方法,其结果和目前主流的癌症致病机理相呼应。(3)不同于其他单维度数据分析癌症共性和异质性,基于TCGA癌症的多维组学数据,结合DNA甲基化差异分析方法,对不同种类以及不同发病组织的癌症的共性和异质性进行分析。给出一种分析癌症间共性和异质性的方法,相关分析揭示了不同发病组织的癌症之间和相同发病组织的癌症之间共性和异质性的存在以及区别,同时识别了多个癌症的重要致病基因。