基于统计建模方法研究真核生物基因表达调控系统

来源 :中国人民解放军军事医学科学院 | 被引量 : 4次 | 上传用户:hhmlyj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生命是一个多层次的复杂系统,通过分子间复杂的相互作用来实现生物学功能,这一点在细胞对基因时空特异性表达的控制方面已得到充分体现。本文致力于利用多元统计和机器学习的方法,从高通量、大样本的生物实验数据中挖掘基因表达的调控关系并构建基因调控网络,旨在从生物分子网络层次揭示基因表达调控系统的运行机制。通过本研究,我们提出了能够提高基因表达调控关系预测准确度的计算方法,并进一步揭示了基因表达调控系统复杂性背后蕴含的内在规律。本文中的研究方法和结果为从生物分子网络层次理解基因表达调控机制、揭示复杂疾病发生发展的原因提供了重要参考。基因表达调控体系是指遗传信息从DNA到蛋白质流动的整个过程的调节方式和机制,对细胞时空特异地执行生物学功能起决定作用,是细胞的核心控制系统。因而,基因表达调控系统长期以来都是分子生物学家和生物信息学家们最为关注的研究对象之一。转录因子对基因的调控是早期基因表达调控研究的主要内容,学术界已提出了大量预测算法,但由于这些算法往往只是单纯地通过基因组序列信息进行预测,其预测结果的理论研究和实验指导价值都比较有限。随着基因表达调控研究的不断深入,人们发现除转录因子之外,真核细胞还拥有其他多种重要的表达调控机制,如非编码RNA调控、染色质表观遗传修饰调控等。如何准确地鉴定各类调控因子与基因之间的调控关系,并明确其相应的调控模式和特征,是该领域存在的重要科学问题。进入21世纪以来,转录组学、蛋白质组学和表观基因组学等高通量实验技术快速发展,为基因表达调控研究提供了大量的细胞内分子真实状态信息,同时也对生物信息学家的数据分析和挖掘能力提出了挑战。上述问题是基因表达调控研究领域亟待解决的重要问题,也是本文工作的基本出发点。本文从两个角度研究真核基因表达调控系统:基于基因序列结构的转录调控和基于分子相互作用的表达调控。首先,在基于基因序列结构的转录调控研究方面,我们重点关注一种基于序列的基因转录调控结构——双顺反子基因。双顺反子基因类似于原核细胞的操纵子(operon),可以在同一个转录本上翻译两个不同的蛋白质,因而这两个蛋白质共享相同的转录调控信号。这种基因结构在原核生物中较为常见,但在真核生物中却仅有一些个例被发现。作为一种有趣的基因调控组织方式,双顺反子在真核生物基因组中出现频率尚不清楚,且其结构与功能产物之间的是否存在一定关系也不得而知。为此,我们基于双顺反子基因的结构性特点,采用比较基因组学和机器学习的研究方法,在人类全基因组范围内对双顺反子基因进行了准确预测,在人类基因组中预测到30个保守的双顺反子基因,为准确估计该类基因结构在哺乳动物中的出现频率提供了参考数据。在此基础上,我们根据蛋白质结构域信息构建了双顺反子的蛋白质产物间的相互作用网络,并通过平均网络距离算法发现了同一个双顺反子基因所表达的蛋白质之间倾向于具有直接的相互作用,因而可能参与相同的通路或执行相关的生物学功能。这一结论从基因功能产物水平解释了双顺反子基因在真核生物中保守存在的原因——尽管在基因中同时维持两个开放阅读框会承受更大的进化压力,然而如果能够使两个在功能上相关或是有相互作用的蛋白质感受相同的调控信号,则双顺反子的基因结构不失为一种高效的基因表达调控机制。各类调控因子对基因的表达调控是真核细胞中更普遍的调控方式,主要通过与基因的复杂相互作用最终实现了细胞对基因时空特异表达的精确控制。因此,本文进一步针对调控因子和基因之间的调控关系进行深入研究和阐述。真核细胞在基因表达过程中的多个水平都存在调控机制,主要包括转录水平、RNA剪接水平、mRNA稳定性水平、翻译水平和翻译后水平等的调控。本文主要从转录水平、mRNA稳定性水平两个层面对基因表达调控系统进行研究。在mRNA稳定性水平的调控层面,本文重点关注一类具有重要生物调控作用的非编码RNA——microRNA。我们通过对microRNA分子浓度与基因mRNA丰度之间的定量关系进行统计建模,研究microRNA与其靶基因之间的复杂调控关系。与其它已知方法相比,我们所构建的Lasso回归模型,可以更准确地发现microRNA与基因之间的调控关系。在该模型的基础上,利用前列腺癌临床样本的表达谱数据,构建了前列腺癌发生和转移两个不同时期的microRNA-gene调控网络。通过对这两个调控网络的分析和比较,我们发现网络中存在多个模块及关键的microRNA节点,文献分析显示这些模块与前列腺癌的发生和转移过程密切相关。本研究不但发展了利用临床表达谱数据准确构建microRNA-gene调控网络的有效方法,而且揭示了microRNA调控网络的模块化特征。同时,本研究也证明了多元统计模型在高通量组学数据挖掘中的重要价值。在基因转录水平的调控层面,我们重点关注近几年正在兴起的表观遗传调控对基因表达的影响。在此方面,我们首先发展了利用表观基因组学数据鉴定DNA调控元件的新方法——DELTA,从随机变量概率分布理论出发,系统考虑了DNA调控元件周围各类表观遗传修饰的分布形状特征,并利用支持向量机对DNA调控元件进行鉴定。在多个实际数据中的测试表明DELTA方法的鉴定准确性相比其它已知方法有显著提高。此外,我们还对启动子区组蛋白修饰与其所在基因之间的复杂调控关系进行定量研究,通过Lasso回归模型证明根据启动子区组蛋白修饰丰度可以准确地预测基因在多个细胞系中表达水平的变化,提示了组蛋白修饰在维持细胞系身份(identity)中的重要作用。同时,通过构建组蛋白修饰的基因调控网络,我们发现细胞系特异基因通常被多个组蛋白修饰所调控,说明组蛋白修饰是细胞系特异基因复杂表达谱的重要来源。由于准确地鉴定调控因子和靶基因之间的相互作用关系是系统研究基因表达调控的前提和基础,因此,本文在方法学上也进行了重要探索,主要包括利用Lasso多元线性回归模型预测microRNA与靶基因之间的调控关系、利用随机变量概率分布理论和支持向量机预测DNA调控元件以及利用Lasso多元线性回归模型鉴定组蛋白修饰与基因之间的调控关系。这些方法在实际数据测试中的表现大都优于其他已知算法,而且统计模型的实际预测效果主要取决于数学模型与真实生物过程之间的耦合程度,而非单纯依赖于算法的复杂度。此外,我们在研究中还广泛使用了复杂网络的构建和分析方法,主要包括双顺反子基因的蛋白质结构域相互作用网络、microRNA与靶基因之间的调控网络和组蛋白修饰与靶基因之间的调控网络。这些网络分析方法是发掘基因表达调控复杂系统背后内在运行规律的有力手段。基因表达调控是一个复杂的生物学过程,生物分子网络层次的研究有助于从系统水平理解其运行机制,揭示网络拓扑结构与生物功能之间的内在关系,是研究复杂生物系统的重要方法。在此基础上,我们将在以后的研究中考虑整合多种类型的分子网络对生物系统进行模拟和分析,为最终理解‘生命是什么’做一些有意义的尝试。
其他文献
联合目录是资源共享、馆际互借、合作编目及合作馆藏发展的前提条件。本文简要介绍了集中式联机联合目录的四种模式 ,重点探讨了在此基础上发展而来的分布式虚拟联合目录及其
阐述了智能消费管理系统对计算机的网络技术和数据库技术的具体应用.重点论述了该系统的服务器与客户机的信息控制和数据传输.信息控制使系统协调运行,数据传输实现数据的上
李书隽教授是我国首批赴美访问学者,师从世界肝移植之父、美国匹兹堡大学医学院器官移植中心主任斯塔佐教授。他曾担任美国得克萨斯大学西南医疗中心移植外科主任,是中国旅美临床医学专家中取得成就最高者之一。目前,他回国筹建北京大学器官移植中心,兼任了北京和睦家医院首席专家。    晚期肝癌不要做肝移植    肝移植是器官移植手术中难度最大的一种,因此应该严格掌握。在英国,只有三家医院被允许做肝移植手术;在美
广告和音乐是两个独立的艺术,是可以独立存在的,但是当它们结合起来的时候,便会更好地服务于广告。本文主要对广告音乐的特性以及创作规律进行了简要的论述。
人文主义是干预人的构成或者人类化历史的一种努力。始于旧石器时代的人类化历史是一个持续形成、至今尚未终结的过程,它的最新阶段是工业革命阶段。西方的现代化似乎预示世
目的本实验以ICR小鼠和大鼠肾上腺嗜铬瘤细胞PC12为研究对象,分别探讨纳米氧化钕(Nano neodymium oxide,Nano Nd2O3)对小鼠神经系统的影响和大鼠肾上腺嗜铬瘤细胞PC12的凋亡作
随着经济的发展,农村供热对于提高农村居民生活质量十分重要。目前农村供热仍旧以分散供热为主,集中供热才刚刚起步,且不同地区之间农村的经济发展状况差距较大,总体情况距离未来农村清洁性供热的规划仍有较大距离。本课题从农村供热结构变化与农村地区经济发展、生态环境协调发展的角度出发,通过采用定性与定量相结合的分析方式建立系统动力学模型,探讨不同政策和情景下的合理高效的农村供热结构发展。通过文献调研及问卷调查