基于ChIP-seq和芯片数据的顺式调控模体与功能模块预测

论文部分内容阅读

生物技术尤其是高通量测序技术的发展使得人们能够更加方便地获取海量的生物数据。然而生物数据的爆炸式增长给人们带来无限发展机遇的同时,也使人们深切地体会到大数据信息挖掘带来的巨大挑战。在这种形势下,生物信息学等交叉学科应运而生,并在生命科学领域发挥着日益重要的作用。在生物信息学的框架中,数学、统计学和计算机科学等理论工具的潜能借助于高性能计算机和数据库等平台得以充分发挥,使得人们能够有效地解决一系列大规模生物数据上的挖掘问题。组学是分子生物学发展到一定阶段的产物。系统论思想的推广使人们不再从个体的角度来分析某个分子或者某类遗传物质。相反地,人们倾向于把具有某个特定功能的个体以及它们之间的关联关系整合为一个系统,旨在从整体的角度系统性地挖掘有价值的信息。基因组学、转录组学、蛋白质组学和代谢组学就是典型的代表。其中,基因组学是所有组学中应用最广泛、影响最长远的分支。尽管生物体内几乎所有的细胞含有同样的基因,然而它们却分化成了不同形态,发挥着不同功能。其原因在于基因并不是在每个细胞中都表达,而控制基因表达的开关就是转录因子。转录因子是一类特殊的蛋白质,它能够通过与基因的启动子、增强子或静默子区域结合来直接调控基因的表达,在基因组中发挥着至关重要的作用。因此,准确识别转录因子在DNA序列上的结合位点(模体)是推动一系列下游分析的关键所在。虽然生物实验是识别转录因子结合位点最可靠的方法,但是由于实验流程操作复杂、成本高昂,目前只有一部分模式生物的少数转录因子的模体得到了实验验证。这就意味着我们有必要寻求其他的应对方案。第二代高通量测序技术的推广产生了大量的测序数据。此外,染色质免疫共沉淀技术与二代测序技术的结合(ChIP-seq)能够提供大量的转录因子潜在的结合位点信息。因此,开发计算工具从ChIP-seq数据中挖掘隐含的模体能够有效地克服传统的实验方法所面临的效率和成本上的挑战。然而,由于转录因子结合位点长度较短,并且通常是高度退化的,再加上测序数据本身存在的技术误差,通过计算方法实现模体识别仍然具有很大的挑战性。另外,由于ChIP-seq数据规模较大,传统的模体识别算法往往难以适用于ChIP-seq数据。目前流行的针对ChIP-seq数据的模体识别算法主要以穷举的方式确定模体长度。由于数据规模的限制,这些算法倾向于识别短模体,因此无法确定模体的真实长度。因此,针对大规模ChIP-seq数据,开发能够准确识别模体长度的高效的模体识别算法是一项极具挑战性的任务。在本文中,我们针对大规模ChIP-seq数据的特征和目前主流的模体识别算法存在的缺陷,以基于k-mer的统计检验和基于模体剖面集合的Gibbs抽样为基础,设计了一个新型的模体识别算法,我们称之为ProSampler。为了测试和比较ProSampler与现有的主流模体识别算法的性能,我们分别在六组模拟数据集和3 × 105组MNChIP-seq数据集上运行了包括ProSampler在内的七个算法。测评结果表明,ProSampler算法不仅能够精准地重构模体的剖面矩阵,而且能够灵敏地识别模体的位点,同时也能够有效地确定模体的真实长度。另外,ProSampler算法在大规模测评数据上的优越性能也反映出了该算法具备的良好的稳健性。ProSampler算法主要有以下三个创新点:1)采用了基于双样本z检验的多重阈值来分别筛选具有不同显著性水平的k-mer。使用该方法对k-mer进行筛选,既能够降低数据的规模以提高运行效率,又能够敏锐捕捉序列中微弱的模体信息以降低假阴性率。另外,双样本z检验不需要太高的计算量,能够在很大程度上节省运行时间。2)设计了以初始模体的剖面矩阵集合为抽样空间的Gibbs抽样算法。由于每个初始模体是在某个显著k-mer的基础上构造而成,因此初始模体的剖面矩阵组成的集合具有有限的规模。这就保证了 Gibbs抽样算法能够在很短时间内实现快速收敛,进一步提高运行效率。此外,通过Gibbs抽样算法,我们可以在迭代中不断修正模体的剖面矩阵的k-mer组成,从而更精准地重构模体的剖面矩阵信息。3)首次采用了双样本z检验来确定模体的长度。该方法不需要通过穷举不同的模体长度来选择最优长度,因此具有很高的运行效率。基于上述创新点,ProSampler能够在短时间内快速完成大规模ChIP-seq数据上的模体识别,准确得到模体的剖面矩阵和位点信息,同时能够快速精准地确定模体的长度。目前,ProSampler算法已通过C++实现,它的源代码以及在Windows、Mac OS和Unix系统下的可执行文件可以通过以下链接下载并使用:https://github.com/zhengchangsulab/prosampler。转录因子在基因组内并不是通过独自识别并结合相应的DNA序列片段来完成对下游基因的调控。事实上,大多数转录因子是通过相互之间的物理作用以协同或者拮抗的方式共同参与基因的调控。因此,转录因子与DNA之间存在着复杂的结合模式。分析转录因子与DNA的结合模式有助于进一步探究转录调控的机制,为探索基因表达等一系列下游的基因组分析提供支持。本研究针对人类胚胎干细胞的159组MNChIP-seq数据集,利用ProSampler算法分析了人类32个转录因子与DNA的结合模式以及导致上述结合模式的关键因素。本研究主要有以下四个创新点:1)发现了转录因子与DNA之间的四种结合模式,即1-0、1-1、0-1和0-0。2)针对1-1和0-1两种结合模式,作出推断:目标转录因子是通过与其他转录因子之间的物理相互作用间接与DNA结合。3)针对0-0结合模式,作出推断:属于该模式的数据集质量较低,因此难以从中发现已知的模体。4)利用ProSampler算法和统计分析,分别发现了 21个和98个广泛存在于多个细胞系中的已知和未知的模体,即:非靶标精妙模体。与之前对非靶标精妙模体的相关研究不同,我们采用的是从头(de novo)模体识别算法ProSampler直接从多个数据集中识别模体,而不是利用现有的模体剖面矩阵以扫描的方式识别模体在DNA序列上的位点。因此,在本研究中发现的非靶标精妙模体中有很大一部分是首次发现。在基因组中,一个转录因子可以调控多个基因。被同一个转录因子调控的基因通常呈现出表达趋势上的相关性。这些具有表达相关性的基因集合很可能具备功能上的同质性。我们把这些具有功能同质性的基因或者对应的蛋白质的集合称为生物功能模块。在生物学中刻画大规模相关性的主要工具是网络生物学。然而生物网络中存在较多的噪音信息,因此人们难以从单一的生物网络中准确预测出生物功能模块。所以,一个比较可行的方案是通过整合多个生物网络,从中挖掘频繁出现的生物功能模块,即:高频稠密子网络。在本研究中,我们针对现有的生物功能模块预测算法存在的缺陷,提出了一个新型的数学模型,我们称之为兼容网络模型。兼容网络模型能够同时将密度和频率两个属性整合到连边的权重上,进而同步实现对两个属性的优化。以兼容网络模型为基础,我们开发了一个准确高效的生物功能模块预测算法,我们称之为MiMod。为了测试和评估MiMod算法的性能,我们从GEO数据库下载了 43个基因芯片数据集,并以此为基础构造出43个基因共表达网络。同时,我们从SNAP数据库下载了 13个与人类血液相关的蛋白质相互作用网络。作为比较,我们在这两组网络集合上同时运行MiMod算法和NetsTensor算法。测评结果表明,MiMod预测的生物功能模块与NetsTensor相比具有更显著的统计学意义和生物学意义。作为MiMod算法的核心部分,兼容网络模型主要有以下两个优势:1)规模小。由于兼容网络是基于一部分顶点构造而成,因此它具有有限的规模,能够在很大程度上节省运行时间。2)兼顾了生物功能模块的密度和频率两个属性。将频率和密度两个属性同时整合到连边的权重上,避免了分別对两个属性进行优化带来的偏差,提高了算法的准确率。另外,MiMod算法还具有以下两个创新点:1)采用了稀疏的概要网络模型,能够进一步节省运行时间。2)采用的双聚类算法能够有效地达到生物功能模块的规模和频率之间的平衡,无需用户设置额外的参数来控制。基于兼容网络和MiMod算法的上述优势与创新点,MiMod算法能够从多重生物网络中敏锐地预测出具有显著生物学意义的功能模块。目前,MiMod算法已通过C++实现,它的源代码以及在Windows、Mac OS和Unix系统下的可执行文件可以通过以下链接下载并使用:https://github.com/LiYangSDU/SYSTEMS。综上所述,针对模体识别和生物功能模块预测两个问题,我们分别开发了ProSampler和MiMod两个算法。测评结果表明,两个算法能够有效地解决对应的两个问题,克服现有算法存在的缺陷。另外,我们利用ProSampler算法和统计方法对转录因子与DNA的结合模式做了一系列分析,并且对上述模式产生的原因作了推断。

其他学术论文