论文部分内容阅读
真核生物基因组中含有大量的非编码序列,其中主要是内含子和基因间隔序列。近年来人们对内含子的功能提出许多新的见解,如内含子在基因表达调控中起着重要的作用。已有的研究表明,非编码序列的长度与基因表达水平有较强的负相关性。但是,内含子和基因间隔序列这二者之间的关系并不清楚。为探讨内含子与基因间隔序列及与基因表达量之间关系,我们进行以下两方面的研究工作:
1.首先从NCBI获取并分析了15个真核生物的基因组数据。结果表明:整体水平上,内含子与间隔序列长度正相关,且内含子平均长度与间隔序列长度的相关性大于单个基因中所有内含子总长度与间隔序列长度的相关性。一种可能的推测原因是,内含子与间隔序列在进化过程中有相同的变化趋势是因为二者都受染色质间区的作用。但在总体正相关的趋势下,它们又各自受到一种微调机制的作用:对内含子来说,它们参与基因转录过程;而反转录重组造成部分内含子丢失,并导致内含子位置的5’端偏向。受该作用显著影响的基因中,内含子与间隔序列长度不相关。去掉这部分基因后,二者之间的相关性明显提高。对基因间隔序列来说,表达量极高的基因中,选择压力倾向于内含子更短,而基因间隔序列更长,二者变化趋势相反。在不直接研究表达量的前提下,分析内含子极短的那部分基因,发现间隔序列长度与内含子大小负相关,这种负相关性间接反映了转录干涉在高表达基因中的主导作用。
2.然后,我们选择具有代表性的4种模式生物为研究对象,分别提取内含子数据及基因表达量数据,计算内含子与基因表达量的相关性。结果表明,在低等单细胞真核生物——啤酒酵母中,内含子数量及内含子长度与基因表达量成正相关,而高等生物人、小鼠、拟南芥相关性分析结果显示,在内含子极少时,内含子长度和数量与基因表达量成正相关均表现为正相关,达到一个临界值后,随着内含子长度和数量的增加,基因表达量与之负相关。这一结果可以通过转录干涉和过多和过长的内含子会造成转录能量浪费来解释。
本研究通过对多种模式生物的内含子与基因间隔序列的长度及基因表达量的关系进行深入分析研究,为探究内含子在基因功能研究提供的生物信息学方面的指导和佐证,同时本课题的研究对于信息科学自身理论的完善和研究方法的发展也将起到一定的推动作用。