论文部分内容阅读
简单重复序列(Simple sequence repeats,SSRs)是一种DNA重复序列,大量存在于真核生物和原核生物的基因组中。分子生物学技术与生物信息学的飞速发展使得SSRs分子标记成为生态学应用中最流行,用途最广泛的标记类型。不仅如此,SSRs在生物生长发育过程及适应性进化等方面也起到至关重要的作用。基于SSRs的这些特性结合目前已经发布的植物基因组数据,我们针对目前测序完成的140种植物,利用比较基因组学等生物信息学方法对其基因组SSRs进行了分析,其结果如下。1.植物基因组特征及其与SSRs特征之间的关系目前已测序完成的物种中裸子植物拥有最大的基因组(平均为16,529Mbp),藻类植物的基因组大小差异最明显(最大基因组是最小基因组的167倍)。蕨类植物的基因组较小,被子植物中单子叶植物基因组比双子叶植物基因组大,双子叶植物类群中不同科之间的基因组也存在一定差异(大小为均值比较)。使用MISA程序总共鉴定出283,867,588个SSRs。结果表明,总体而言基因组大小与SSRs的数量呈强正相关关系,而与SSRs的密度呈弱负相关关系。藻类植物的SSRs密度差异较大,而在被子植物中SSRs分布密度差异较小。2.不同植物类群中SSRs的分布情况植物基因组中SSRs最丰富的类型是六核苷酸重复,分布最稀少的类型是十核苷酸重复。藻类植物的SSRs类型分布表现出与其它类别植物不同的偏好。藻类植物中仅次于六核苷酸重复的SSRs类型为三核苷酸重复,其他类群植物为七核苷酸重复。而排在第三位的类型在不同科之间也存在明显差异。我们发现SSRs中的GC含量和基因组中GC含量成正相关关系,仅有少数植物例外。藻类植物GC含量的大小差异最大,平均GC含量最高,其次是单子叶植物的禾本科物种。双子叶植物、蕨类植物和苔藓植物的GC含量均比较小,最小的豆科植物(双子叶植物)的平均GC含量仅有31.13%。通过分析GC含量和SSRs motif之间的关系,表明SSRs motif的分布偏好受GC含量的影响。一般而言,GC含量越高,SSRs中G/C丰富的motif越多,在藻类植物和禾本科植物中有明显的此类情况。A/T丰富的motif在类型上比G/C丰富的motif多,导致藻类植物和禾本科植物GC含量对motif的影响不是以50%为分界线,当它们基因组GC含量达到一定数值(小于50%),SSRs的Top 10中G/C丰富的motif明显增多。3.植物中长SSRs的分布与潜在功能的分析通过对基因组中特别长的SSRs(长度≥1000bp)的分布统计分析发现,双子叶植物中长SSRs分布更多。在SSRs类型中,二核苷酸重复和三核苷酸重复的数量比六核苷酸重复数量更高。另外,二核苷酸重复AG/AT/AC(包括其反向motif GA/TA/CA)和三核苷酸重复TTA/TTC(包括其变形motif TAT/ATT/TCT等)是数量最多的motif类型。对编码区中的长SSRs(长度≥500bp)进行分析发现其数量比在基因组中更为稀少。对其存在长SSRs的蛋白质序列分析发现,长SSRs的出现并未对其蛋白质功能结构域产生直接影响,但是其本身具有何种功能还待进一步分析。并在陆地棉(Gossypium hirsutum)和马铃薯(Solanum tuberosum)中设计验证长的SSRs中的潜在功能和作用。CDS序列中的长SSRs会影响蛋白质结构,非三联体motif的长度对其蛋白质二级结构的影响要比三联体motif更大。本研究为全面了解植物中SSRs的偏好、特性和分布与其在进化中的潜在作用提供了有益的见解。