论文部分内容阅读
细胞的生物功能是通过基因及其产物之间相互作用,形成复杂的调控网络来实现的。理解生命系统中基因间的相互作用及其功能是系统生物学研究的核心内容。通过高通量生物技术,我们获取了大规模的组学数据,如基因表达数据、蛋白质—DNA结合数据、蛋白质相互作用数据以及基因型数据等。这些数据在不同方面提供了系统认识基因的复杂调控机制所需要的信息。尽管许多计算和统计方法已经利用这些数据来分析调控网络,以系统的了解生命活动在分子水平上的机制,但是由于转录调控机制的复杂性以及高通量数据内在的噪声,完全的理解基因调控网络仍然是一个尚待解决的问题。本文以系统生物学中的一些实际问题为出发点,以基因表达数据为基础,建立统计模型,对基因网络的相关问题,如基因共表达网络的模块分析、基因调控网络的构建以及基因网络间的差异分析进行了深入的研究。本文的主要研究内容和创新点如下:1.采用基因权重共表达网络对基因模块的生物学意义及产生机制进行分析。鉴于基因调控网络的复杂性,基因模块被用来简化对基因调控网络的描述。虽然已经对基因模块进行了大量的研究,但是基因模块的定义并不统一,而且对其生物学意义及产生机制缺乏必要的了解。本文采用基因共表达网络对基因模块进行分析,以了解基因模块的生物学意义及其形成的遗传学基础。GO功能信息、KEGG生物通路及转录因子目标基因的富集分析表明,基因模块具有明显的生物学属性,而在共表达网络中采用拓扑重合度量能比皮尔逊相关度量更有效的提取出基因模块。利用同种生物的不同条件下的基因表达数据集,得到的基因模块具有很高的一致性,表明基因网络的模块化是生命活动的固有属性。结合基因型数据与基因表达数据进行的表达数量性状座位分析显示,存在着调控模块中的基因共同表达的基因组区域,部分解释了基因模块产生的遗传学机制。基因模块为分析基因表达数据和增强对基因调控网络的了解提供了简单而有效的方法。2.提出一种新的统计整合模型,能够有效的利用多种类型的干扰型基因表达数据来构建调控网络。基因调控网络在生命活动中发挥着重要的作用,调控网络的研究对认识细胞分化、新陈代谢、信号转导以及疾病产生的机制有着重要意义。随着全基因组表达数据的快速积累,已有很多方法被用来重构基因调控网络。由于涉及到许多基因间的复杂的相互作用,这些方法的精度相对较低,所以重构基因调控网络仍然是具有挑战性的课题。重构基因调控网络时,整合不同类型的基因表达数据,是提高预测精度的一个可能途径。本文提出一种新的统计整合模型,能够有效的利用多种类型的干扰型基因表达数据来构建调控网络。模型的核心思想是针对不同类型基因表达数据的特点分别建模,而后采用Fisher方法将各类型数据中得到的信息进行统计整合。仿真实验的测试结果表明,基因敲除数据是构建调控网络的最有效的信息来源,整合多种类型表达数据进行预测要优于使用单一类型的表达数据。将方法应用到DREAM4 in silico基因网络重构挑战赛,结果表明该模型具有较好的预测性能,在子挑战1中获得第2名。3.构建了基因网络差异分析的贝叶斯层次模型,它能较好的检测出网络的拓扑变化,精度高于其它模型。微阵列基因表达数据的研究重心已经由差异表达基因的检测逐渐转移到基因网络的差异分析。基因调控网络具有动态性和条件特异性,在不同的时间空间条件下,基因的调控模式发生变化,并体现在调控网络的拓扑结构的改变上。检测特异性的基因关联,可以发现在不同条件下基因关联网络的差异,能够促进对细胞发育、疾病病理的了解,并有助于确定药物的靶点基因。针对单一条件下表达数据样本量不足,会导致检测精度不高的问题,本文将不同条件下的、性质各异的表达数据汇集在一起,在贝叶斯框架内建模,使不同条件下的数据能够互相分享信息,以提高检测具有条件特异性的基因关联的精度;模型使用了spike and slab先验分布来模拟基因关联网络的稀疏性,并对基因关联的特异性程度给出了后验概率度量。各种场景下的仿真实验中,该模型均能较好的检测出仿真网络的拓扑变化,其精度高于其它模型。将该模型应用到HapMap基因表达数据中,寻找不同人种间的关联网络的差异,得到了具有生物学意义的结果。本文的研究工作得到了国家留学基金委“国家建设高水平大学公派研究生项目”(CSC:2008634012)和NIH grant GM59507的资助。