论文部分内容阅读
必需基因是生物体维持生命活动必不可少的基因。必需基因的研究有助于探索生命的起源进化,并且可为药物靶点的设计、疾病的治疗以及合成生物学最小基因组的研究等提供重要的基础。科学研究表明不同的基因对生命体的重要性不同,其进化速率也不同,随后众多研究结果显示基因的重要性和进化速率存在较弱的相关性,但是仍存在一些争议。近年来随着高通量数据的累积,出现了对必需基因序列长度、核苷酸组成、氨基酸分布、生物功能、蛋白质相互作用网络以及结构域信息等方面的分析研究,促进了必需基因的预测。但是由于其分析物种数量较少,不同研究者针对不同的物种分析往往得到的结果存在差异。为了更全面的了解必需基因,本文针对多个物种,研究必需和非必需基因的一些特性,进而为区分必需和非必需基因提供理论基础,开展工作如下:①基于20个原核生物基因组中已通过实验方法确定的必需基因,分析它们的蛋白质亚细胞定位,结果表明必需和非必需基因的亚细胞定位分布有差别。必需基因对应的蛋白质定位于胞质的含量(40%~70%,60%~80%)比非必需基因的高;而必需基因定位于质膜的含量(15%左右)则低于非必需基因。②本文分析基因的重要性和基因表达水平的关系。用密码子适应指数(CAI)作为基因表达水平的有效评价指标,观察到必需和非必需基因CAI值的分布存在统计学显著差异,20个物种的必需基因平均CAI值都大于非必需基因的。同时对必需和非必需基因的CAI值进行正态分布拟合,观察到必需基因的CAI值分布更集中,且集中趋势位置更大。在不同表达水平中,观察到必需基因在高表达水平中的含量明显较高。通过CAI结果分析可知,CAI虽然不能成为划分必需基因和非必需基因的标准,但是可以作为必需基因有效评价的一个因素。③本文结合现代通信系统的纠错编码理论模型,构建(6,3)分组码的分析方式,对必需和非必需基因的碱基序列分析。结果显示在起始密码子-13位点的平均码距波动与原核生物的SD区域在距离起始密码子5~13个碱基范围这一特性吻合,这类似于数字通信系统中的前导码;并且必需基因的平均码距数值波动范围比非必需基因的大。本文从不同的角度进行分析,研究必需和非必需基因的特性差别,为必需基因的标识、最小基因组的构建提供新的思路。