论文部分内容阅读
生命是一个多层次的复杂系统,通过分子间复杂的相互作用来实现生物学功能,这一点在细胞对基因时空特异性表达的控制方面已得到充分体现。本文致力于利用多元统计和机器学习的方法,从高通量、大样本的生物实验数据中挖掘基因表达的调控关系并构建基因调控网络,旨在从生物分子网络层次揭示基因表达调控系统的运行机制。通过本研究,我们提出了能够提高基因表达调控关系预测准确度的计算方法,并进一步揭示了基因表达调控系统复杂性背后蕴含的内在规律。本文中的研究方法和结果为从生物分子网络层次理解基因表达调控机制、揭示复杂疾病发生发展的原因提供了重要参考。基因表达调控体系是指遗传信息从DNA到蛋白质流动的整个过程的调节方式和机制,对细胞时空特异地执行生物学功能起决定作用,是细胞的核心控制系统。因而,基因表达调控系统长期以来都是分子生物学家和生物信息学家们最为关注的研究对象之一。转录因子对基因的调控是早期基因表达调控研究的主要内容,学术界已提出了大量预测算法,但由于这些算法往往只是单纯地通过基因组序列信息进行预测,其预测结果的理论研究和实验指导价值都比较有限。随着基因表达调控研究的不断深入,人们发现除转录因子之外,真核细胞还拥有其他多种重要的表达调控机制,如非编码RNA调控、染色质表观遗传修饰调控等。如何准确地鉴定各类调控因子与基因之间的调控关系,并明确其相应的调控模式和特征,是该领域存在的重要科学问题。进入21世纪以来,转录组学、蛋白质组学和表观基因组学等高通量实验技术快速发展,为基因表达调控研究提供了大量的细胞内分子真实状态信息,同时也对生物信息学家的数据分析和挖掘能力提出了挑战。上述问题是基因表达调控研究领域亟待解决的重要问题,也是本文工作的基本出发点。本文从两个角度研究真核基因表达调控系统:基于基因序列结构的转录调控和基于分子相互作用的表达调控。首先,在基于基因序列结构的转录调控研究方面,我们重点关注一种基于序列的基因转录调控结构——双顺反子基因。双顺反子基因类似于原核细胞的操纵子(operon),可以在同一个转录本上翻译两个不同的蛋白质,因而这两个蛋白质共享相同的转录调控信号。这种基因结构在原核生物中较为常见,但在真核生物中却仅有一些个例被发现。作为一种有趣的基因调控组织方式,双顺反子在真核生物基因组中出现频率尚不清楚,且其结构与功能产物之间的是否存在一定关系也不得而知。为此,我们基于双顺反子基因的结构性特点,采用比较基因组学和机器学习的研究方法,在人类全基因组范围内对双顺反子基因进行了准确预测,在人类基因组中预测到30个保守的双顺反子基因,为准确估计该类基因结构在哺乳动物中的出现频率提供了参考数据。在此基础上,我们根据蛋白质结构域信息构建了双顺反子的蛋白质产物间的相互作用网络,并通过平均网络距离算法发现了同一个双顺反子基因所表达的蛋白质之间倾向于具有直接的相互作用,因而可能参与相同的通路或执行相关的生物学功能。这一结论从基因功能产物水平解释了双顺反子基因在真核生物中保守存在的原因——尽管在基因中同时维持两个开放阅读框会承受更大的进化压力,然而如果能够使两个在功能上相关或是有相互作用的蛋白质感受相同的调控信号,则双顺反子的基因结构不失为一种高效的基因表达调控机制。各类调控因子对基因的表达调控是真核细胞中更普遍的调控方式,主要通过与基因的复杂相互作用最终实现了细胞对基因时空特异表达的精确控制。因此,本文进一步针对调控因子和基因之间的调控关系进行深入研究和阐述。真核细胞在基因表达过程中的多个水平都存在调控机制,主要包括转录水平、RNA剪接水平、mRNA稳定性水平、翻译水平和翻译后水平等的调控。本文主要从转录水平、mRNA稳定性水平两个层面对基因表达调控系统进行研究。在mRNA稳定性水平的调控层面,本文重点关注一类具有重要生物调控作用的非编码RNA——microRNA。我们通过对microRNA分子浓度与基因mRNA丰度之间的定量关系进行统计建模,研究microRNA与其靶基因之间的复杂调控关系。与其它已知方法相比,我们所构建的Lasso回归模型,可以更准确地发现microRNA与基因之间的调控关系。在该模型的基础上,利用前列腺癌临床样本的表达谱数据,构建了前列腺癌发生和转移两个不同时期的microRNA-gene调控网络。通过对这两个调控网络的分析和比较,我们发现网络中存在多个模块及关键的microRNA节点,文献分析显示这些模块与前列腺癌的发生和转移过程密切相关。本研究不但发展了利用临床表达谱数据准确构建microRNA-gene调控网络的有效方法,而且揭示了microRNA调控网络的模块化特征。同时,本研究也证明了多元统计模型在高通量组学数据挖掘中的重要价值。在基因转录水平的调控层面,我们重点关注近几年正在兴起的表观遗传调控对基因表达的影响。在此方面,我们首先发展了利用表观基因组学数据鉴定DNA调控元件的新方法——DELTA,从随机变量概率分布理论出发,系统考虑了DNA调控元件周围各类表观遗传修饰的分布形状特征,并利用支持向量机对DNA调控元件进行鉴定。在多个实际数据中的测试表明DELTA方法的鉴定准确性相比其它已知方法有显著提高。此外,我们还对启动子区组蛋白修饰与其所在基因之间的复杂调控关系进行定量研究,通过Lasso回归模型证明根据启动子区组蛋白修饰丰度可以准确地预测基因在多个细胞系中表达水平的变化,提示了组蛋白修饰在维持细胞系身份(identity)中的重要作用。同时,通过构建组蛋白修饰的基因调控网络,我们发现细胞系特异基因通常被多个组蛋白修饰所调控,说明组蛋白修饰是细胞系特异基因复杂表达谱的重要来源。由于准确地鉴定调控因子和靶基因之间的相互作用关系是系统研究基因表达调控的前提和基础,因此,本文在方法学上也进行了重要探索,主要包括利用Lasso多元线性回归模型预测microRNA与靶基因之间的调控关系、利用随机变量概率分布理论和支持向量机预测DNA调控元件以及利用Lasso多元线性回归模型鉴定组蛋白修饰与基因之间的调控关系。这些方法在实际数据测试中的表现大都优于其他已知算法,而且统计模型的实际预测效果主要取决于数学模型与真实生物过程之间的耦合程度,而非单纯依赖于算法的复杂度。此外,我们在研究中还广泛使用了复杂网络的构建和分析方法,主要包括双顺反子基因的蛋白质结构域相互作用网络、microRNA与靶基因之间的调控网络和组蛋白修饰与靶基因之间的调控网络。这些网络分析方法是发掘基因表达调控复杂系统背后内在运行规律的有力手段。基因表达调控是一个复杂的生物学过程,生物分子网络层次的研究有助于从系统水平理解其运行机制,揭示网络拓扑结构与生物功能之间的内在关系,是研究复杂生物系统的重要方法。在此基础上,我们将在以后的研究中考虑整合多种类型的分子网络对生物系统进行模拟和分析,为最终理解‘生命是什么’做一些有意义的尝试。