论文部分内容阅读
复杂疾病是21世纪人类医学和生物学上的一大挑战,这类疾病由遗传因素和环境因素共同主导,在其发生过程中涉及到多种遗传物质,比如基因、蛋白等。DNA到RNA的转录过程是遗传物质表达的重要一步,蛋白质磷酸化作为一种重要的蛋白质翻译后修饰方法,对蛋白质的功能有着显著影响。对于蛋白质磷酸化和转录调控关系的研究有助于更深层次的认识生命活动的机制和本质。胃癌和食管癌作为致死率极高的两种复杂疾病,目前关于其分子机制和癌症标记物的研究大多是基于蛋白质组学数据或者单基因组数据开展。因此,本文提出将基因组学数据和蛋白质组学数据结合起来,从网络的角度进行胃癌和食管癌的特异性功能模块和癌症标记物研究。具体为整合表达数据和甲基化数据等多种组学数据,分别构建胃癌和食管癌的癌症特异性网络,使用加权网络分析方法识别出癌症特异性模块,在模块内部进一步预测潜在癌症标记物。首先,鉴于甲基化在癌症发生中的重要作用,分别提取出两种癌症的甲基化异常分子。以此作为即将进行潜在癌症标记物的候选集,也是疾病特异性网络的节点集。另一方面,本文整合全基因组的调控关系数据、磷酸化修饰中激酶和底物的关系数据。选择在这些关系型数据中以甲基化异常分子作为端点并且两端点之间相关系数较大的关系对,作为疾病特异性网络的连边集。然后,在两个特异性网络上分别进行加权共表达分析,对两个网络分别应用层次聚类算法,使用动态切割方法将网络分为不同的功能性模块。胃癌网络分为14个模块,食管癌网络分为10个模块。基于降维的思想,提出一种新的预测特异性模块和潜在癌症标记物的方法。以胃癌为例,计算每个模块的第一主成分和所有胃癌标记物的相关性系数,选取这些相关性系数差值较大的模块作为特异性模块进行潜在癌症标记物的预测。在两种癌症中分别选择排名前三的模块进行下一步分析。最后,因为在有权重的特异性网络中,基于距离和基于相关性的两类相似性评估方法均可用于衡量分子之间的关系,所以本文采用三种基于距离的方法和两种基于相关性的方法对每个模块内的分子和该模块的第一主成分进行计算排名,分析和对比在此问题中各种方法的优劣。实验结果分析表明在胃癌和食管癌的疾病标记物预测问题中,基于相关性的方法优于基于距离的方法,而基于相关性的方法中皮尔逊相关系数的表现更加突出。在6个特异性模块中,平均有32%的分子可以得到验证。本文构建且分析了胃癌特异性网络和食管癌特异性网络,对两个网络中呈现出的癌症特异性模块深度分析,使用多种方法预测潜在的癌症标记物,比较不同的方法结果的优劣。并且对模块进行生物富集分析,从生物化学功能的角度对这两种癌症做出解析。然而,本文中使用到的组学数据有限,未来可以整合更多的高通量数据比如体细胞突变数据等构建更完善的特异性网络,为生命科学和靶标药物以及精准医疗做出贡献。