论文部分内容阅读
转录区域是基因组中存储遗传信息的主要区域之一,其核酸组分的特征常常表现为碱基含量的不平衡,是基因组学研究中的重要研究方向之一。核酸组分的不均衡的一个重要特征是GC含量由基因的5’端向3’端先升高后降低的梯度分布现象,称为GCgradient。 GC gradient存在于单子叶植物中,但不存在于双子叶植物中,其形成与转录偶联突变有关。在细菌和后生动物中是否存在GC gradient,其形成是否也与转录偶联突变有关,其主要的影响因素有那些,目前尚缺乏系统的研究。在后生动物中大量存在的内含子位于转录区域,其核酸组成特征与编码区不同。后生动物自冷血到温血发生了内含子长度扩增的演化过程。内含子长度扩增的机制、其与GC gradient的关系、其核酸组分在演化中的变化目前仍缺乏系统的研究。在以上的框架下,我们的研究使用了比较基因组学的手段,分析了细菌和后生动物的GC gradient特征和不存在细菌中但在后生动物中普遍存在的内含子的长度扩增趋势及此趋势对转录区域核酸组分的影响,得到的结果如下。使用全基因组霰弹法测定的长双歧杆菌Bifidobacterium longum subsp. longum BBMN68基因组长2265943bp,具有59.95%的GC含量。对BBMN68和其他长双歧杆菌基因组的比较分析显示7株都不具有典型的前导链后随链的碱基不对称,显示了长双歧杆菌在复制过程中的特殊性。我们接下来用滑动窗口的方法分析了长双歧杆菌在起始密码子及附近区域1、2、3位的GC含量(GC1、GC2、GC3)、发现其在基因间区无明显区别。与单子叶植物不同,我们在长双歧杆菌的转录区域未发现典型的GC gradient。在编码区,我们发现了GC3>GC1>GC2的现象;基因间区的GC含量在50%左右。对已经公布基因组序列的另外1640株细菌的GC1、GC2、GC3的分析显示存在三种GC含量特征类型:转录单元内GC1>GC2>GC3,基因间区GC含量在10%~40%;转录单元内GC1>GC3>GC2,基因间区GC含量在30%~55%;转录单元内GC3>GC1>GC2,基因间区GC含量在40%~75%。我们还发现GC1,GC2, GC3的变异系数在基因间区的GC含量小于40%时,与GC含量呈现负相关;而在基因间区的GC含量大于50%后,则由负相关变为正相关。在后生动物中,我们继续进行GC gradient的研究,在温血脊椎动物中也含有类似单子叶植物的GC gradient,与前人结论一致,即GC gradient出现于温血脊椎动物和冷血脊椎动物的过渡阶段。在人睾丸中高表达的基因倾向于存在更显著的GC gradient。在5’UTR中存在intron (UTR5I)的基因,其UTR5I的总长度越短,GC gradient的趋势越显著。5’UTR更长的基因具有更弱的GC gradient特征。起始密码子向3’方向下游的外显子内跳动,会移动CDS区域中的内含子进入5’UTR而迅速增加5’UTR长度,因此这种突变会导致GC gradient减弱。进一步分析发现含有UTR5I的基因在始密码子下游,ATG密码子出现频率较高,使得起始密码子在突变压力下可以向3’方向移动。由于具有不同的5’UTR结构的isoform可能具有不同的GC gradient,我们研究了使用不同起始密码子的全长isoform。根据isoform产生的机制将其分为两类:AS型(使用邻近或相同的启动子,并由于可变剪切(alternative splicing, AS)产生不同的isoform)和AP型(使用位置相差较远的启动子,并由于使用不同启动子(alternative promoter, AP)转录不同的isoform)。我们发现AP型基因倾向于比AS型长,并具有更明显的GC gradient特征。AP型基因的内含子倾向于使得其isoform的hnRNA长度差异更大,且这些内含子行使表达调控功能。Slide Window Ka/Ks值显示一般AP型isoform共有的exon承受比N端区域更高的选择压力。我们在后生动物中进一步研究发现,5’UTR内含子在数量和长度上均呈现从低等到高等的增加趋势,且内含子长度增加主要是由其中的重复序列引发的。在基因组的演化史中,DNA、LTR、LINE先发生了扩增,导致了内含子的长度增加,之后SINE发生了扩增,进一步提高了内含子的长度和GC含量。在脊椎动物中,内含子作为转录区域的主要组成部分,其GC含量的演化引起了转录区域核酸组成的变化。由于在生殖细胞中转录偶联的突变和转座子扩增是可以遗传的且均依赖转录,因此生殖细胞中的转录过程在基因的演化过程中扮演了重要的角色。