基因组转录调控元件的特征分析与识别算法研究

被引量 : 0次 | 上传用户:lghlgh82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
探寻基因表达调控的规律是后基因组时代生物信息学的核心问题之一。由于转录是基因表达的第一步,对转录的调控必然成为表达调控的重要形式。基因组中具有调控功能的DNA序列片段可称为转录调控元件。对转录调控元件进行识别与注释,无疑将是研究转录调控规律进而构建表达调控网络的关键步骤。随着生物研究的深入和计算机技术的发展,计算识别的方法已逐渐成为传统实验注释方法的有力辅助工具。然而,现有的转录调控元件识别方法多数只考虑序列的一维组成等有限特征,忽略了许多其他重要信息,致使识别的特异性普遍偏低,假阳性结果过多。在这一背景下,本文以转录调控元件的特征分析和计算识别为主题,提出了由特征选取、特征计算和整合识别三个主要步骤组成的多类特征信息融合识别框架,并基于此框架实现了启动子、内源性终止子和转录因子结合位点三种常见转录调控元件及其相关调控信号的识别算法,主要工作和创新之处包括:(1)启动子的特征分析与识别算法研究。启动子是负责调控转录起始过程的序列元件,本文在深入分析原核和真核启动子多类特征的基础上,提出了一种基于特征筛选与组合的启动子序列判别分析算法。该算法首先在启动子的序列组成、空间构象和能量分布等特征中广泛选取备选特征,为每个备选特征建立适当的描述模型,通过模型计算对其判别力进行评价;然后采用逐步筛选算法从备选特征中遴选出总体判别力最显著的特征组合作为特征集,依照特征集将启动子序列片段表示为组合特征向量的形式;再利用二次判别分析方法实现分类与识别。为了使描述更加准确,还在原核启动子局部信号特征的分析中引入了复合模体的概念,设计了用于搜索和计算二元复合模体的迭代搜索算法OCMISA。在计算真核启动子中位置不定的保守模体时,同样使用了类似的迭代搜索算法。利用此算法,本文在实际数据集上对原核的大肠杆菌σ70启动子和枯草杆菌σA启动子,真核的人类pol II启动子进行了分类识别,获得了明显优于其他几种常用识别方法的性能评价。(2)转录起始位点的定位算法研究。转录起始位点是与启动子有密切关联的调控信号。本文以前面提出的基于特征筛选与组合的启动子识别算法为基础,将其扩展为转录起始位点定位算法。该算法首先根据转录起始位点可能出现位置的先验信息合理确定搜索范围。由于原核转录起始位点的搜索范围较小,故直接将固定的启动子区域改为滑动窗口进行扫描,根据每个位置上的似然得分来确定预测位置。为提高信噪比,特别设计了基于共振原理的窗口交迭组分特征变量和用于最终定位的阈值定位算法,并引入转录起始位点和翻译起始位点间的距离分布信息作为对似然得分的修正。对于真核转录起始位点,由于搜索范围过大导致滑动窗口方法失效,则需根据已知转录起始位点的组成信息来确定备选位点集,仅对定位范围内的备选位点进行计算,利用启动子识别的方法即可实现分类定位。在实际数据集上对定位算法进行测试,其结果与几种常用方法相比,无论是对原核还是真核转录起始位点,特异性都有了较大幅度的提高。(3)内源性终止子的特征分析与识别算法研究。内源性终止子是凭借自身的序列信号即可实现转录终止功能的调控元件。本文在对大肠杆菌和枯草杆菌内源性终止子已有特征进行深入分析和合理综合的基础上,引入序列弯曲度特征,为内源性终止子构建了一个包含序列组成、局部构象和能量分布信息的更为全面的特征集,并在此特征集上分别利用二次判别分析和支持向量机方法实现了内源性终止子的识别算法。在大肠杆菌全基因组限定范围内的搜索预测中,基于新特征集的算法与其他几种典型方法相比,其识别结果的特异性有了明显提高。(4)转录因子结合位点的特征分析与识别算法研究。转录因子结合位点是转录因子与基因组序列结合的靶位点,是最基本的一类调控元件。本文在分析已有方法的基础上,提出了一种融合保守模体和序列局部构象信息的转录因子结合位点搜索识别算法,采用极大相关得分矩阵作为保守模体的描述和计算模型,同时根据二苷参数模型计算序列的局部构象参数,然后利用二次判别分析整合两类信息,最终通过滑动窗口进行识别。作为对常用位置特异得分矩阵模型的扩展,极大相关得分矩阵的核心思想是根据模体位置间的相关性对全部位置进行重新排列,使得新顺序下所有相邻位置间的相关性总和达到最大。位置重排可以将远程相关尽量转化为近邻相关,从而在较低的模型复杂度下即可实现对模体位置间相关性的更加全面地描述。而局部构象参数则作为外源特征被引入,它们是对序列组成信息的有力补充。基于大肠杆菌CRP、Fis和人类HNF4α结合位点数据的测试结果验证了此识别算法的有效性。与其他常用方法相比,识别结果的特异性有了较大的改善。
其他文献
<正> 缝纫机底板的机械加工,原来采用半自动化加工流水线,劳动强度大,产品质量不稳定。在毛主席革命路线指引下,为了改变缝纫机底板机械加工的落后面貌,迅速提高缝纫机的产量
目的:探讨术前长期服用阿司匹林对脑出血术后再出血的影响。方法:采用回顾性队列研究方法,62例曾接受脑出血开颅手术治疗的患者,分为暴露组(术前长期服用阿司匹林)32例和非暴
对城市屋顶绿化的类型、形式、生态功能和植物选择进行了简单的阐述,总结了我国北京、成都、广州、沈阳等大城市的城市屋顶绿化植物种类。以期为各中、小城市的屋顶绿化提供
<正>中国嘉德2006年春季拍卖会中国古代书画专场,石涛《莲社图》手卷以1177万元成交,成为该场最大亮点。石涛(1642~1707年)为清代杰出画家。原名朱若极,小字阿长,削发为僧后,
二甲双胍作为传统经典的降糖药物,是临床使用最广泛的降糖药物之一。因其降糖疗效确切,且兼顾安全性和耐受性,被国内外多家指南所推崇,列为2型糖尿病患者治疗的首选药物。同
<正> 一 多用途去毛刺工具 这里所介绍的去毛刺工艺的新进展,意味着在使用场合的广泛性和有效性方面迈出了重要的一步。这种去毛刺工具具有按不同几何形状所确定的刀具,它在C
谭元春诗歌的基调是幽深孤峭,但不同题材的诗,风格又稍有差异。具体表现为:家居诗于天真朴素之中寓凄清;交游诗于情浓意厚之中寓孤寂;山水诗于清微静笃之中寓苍寒;咏物诗于冷
<正> 一、前言在塑料生产和研究中,提高通用大品种聚合物质量,扩大应用范围是其重要发展方向之一。怎样才能达到上述目的呢?填充.共混、复合增强,就是其中重要方法,因为通过
本文结合窑址调查资料和传世器物,对绞胎器与“绞釉”器的起源、技法、品种、产地、时代以及二者关系等作了较全面的考察与探讨,并提出中原地区是古代绞胎器与“绞釉”器的主要