论文部分内容阅读
转录是基因表达的第一阶段,也是基因调节的主要阶段,通过转录因子与特异的DNA序列结合,对基因的表达起抑制或增强的作用。识别DNA序列的中的这些结合区域,即转录因子结合位点识别,对了解基因的转录活性及理解基因表达有着重要意义,是现今生物信息学中最为广泛研究的问题之一。转录因子结合位点识别问题的难点在于,与大量长度几百或上千碱基的背景噪声序列相比,长度为十几或几十的模体信号相对较短,并且同一转录因子的模体实例还有可能部分发生变异。同时,随着序列长度和数量的增加,解空间大小也会飞速巨增,计算开销往往不切实际。此外,识别结合区域中的多个转录因子结合位点、寻找特定的共调控转录因子结合位点组合以及在全基因组范围内寻找结合位点,也是此问题所面临的巨大挑战。本论文针对转录因子结合位点识别问题中所使用的数学模型、优化技术、高效识别方法以及与新型生物实验结合的进一步发展等问题进行了深入的研究,将所提出的方法应用于模拟字符串数据、不同物种和组织的启动子序列和全基因组的DNA数据进行转录因子结合位点识别。主要工作可概括如下:(1)针对传统转录因子结合位点识别问题组合候选解集规模过大,经典的概率求解方法易于陷入局部最优解的情况,提出了定位投影求精算法。通过一个基于位置频率矩阵的定位投影过程,将数据集划分,聚类为不同的子集。从这些子集中过滤筛选出具有一定信息量和复杂度若干子集,分别作为期望最大化算法的初始状态并进行迭代求精。本论文通过对定位投影过程中阀值的设定,实现了对OOPS、ZOOPS、TCM三种模体实例不同分布模型的处理。同时,结合高阶马尔可夫模型作为背景加强模体特异性,使概率模型更加符合真实生物数据。此外,引入了相似函数对各子集输出结果进行评估,使得定位投影求精算法可以解决多模体识别问题。实验结果表明,该算法可以在多个真核物种的启动子序列中有效识别转录因子结合位点。(2)针对由转录因子结合位点识别问题衍生得到的(l, d)植入模体搜索问题,传统算法在效率和准确度上往往较难达到良好的平衡,并且难以解决挑战实例的情况,提出了一种基于期望最大化的启发式聚类算法CEM。通过参照序列的设定,该算法将数据集划分为不同的子集,并使用改进的期望最大化算法来探索子集中最好的局部最优解。CEM将精确方法与概率方法相结合,克服了传统期望最大化算法陷入不同局部解的缺点,可准确寻找到植入位点,对识别高退化性模体有较好的性能。模拟数据测试结果表明,CEM不但能准确识别一般实例中的植入模体信号,对于挑战实例的植入模体信号识别也有较高准确率。此外,真实数据实验证明该算法可有效应用于实际物种的转录因子结合位点识别问题。(3)针对全基因组范围的转录因子结合位点识别问题,提出了一种用于ChIP-seq数据的转录因子结合位点识别算法MMFChIP。该算法将精确方法和概率方法相结合,针对ChIP-seq的数据特点,通过对正负两个输入集合的比较,选出发生频率较高且相似的子序列生成位置频率矩阵,并结合模体内位置依赖性和高阶马尔可夫进行统计建模,利用错误发现率对预测实例进行控制。在输出时,还利用一个后处理过程聚类相似的模体。ChIP-seq数据测试证明,MMFChIP适用于处理大规模数据中的模体发现问题,不但可以发现数据中的多个模体成分,并且对这些数据中的潜在辅助因子也可以进行较好的预测。