论文部分内容阅读
随着越来越多的物种的基因测序的完成,尤其是人类基因组的测序完成,接踵而至的难题就是对基因组的解释和分析。面对庞大的基因数据,挖掘和分析基因组序列的生命信息就是生物信息学要解决的主要问题。基因预测是DNA序列分析的一项重要任务,而识别基因编码区是基因预测的关键。真核生物基因外显子的识别是基因预测的重难点。由于真核生物基因编码区结构复杂、外显子序列较短、存在大量重复序列等原因,目前对真核生物的编码区预测还没能取得很好的效果。本文针对真核生物,主要研究了小鼠基因的预测方法。 本文从三个方面对基因预测进行介绍。第一部分:生物信息学的基本知识背景简介,基因预测的国内外研究情况和意义。第二部分:基因预测的第一步是基因序列的数值化映射研究。介绍几种基因序列的统计特征及其提取,结合fisher判别法用这些统计特征对基因序列进行分类判别。第三部分:在3-周期性这一统计特征的基础上对功率谱进行研究,提出基于碱基幅角的功率谱和信噪比,并选取适当阂值判别。用小鼠基因进行试验证明,基于碱基幅角的功率谱,使小鼠外显子序列的频谱图具有更显著的3-周期性,且内含子的频谱图更加平稳,从而增大了序列中外显子与内含子的信噪比的区分度,使小鼠基因序列的预测获得更好的效果。 总之,本文基于平均长度为150bp的小鼠基因的探究,对基因预测的算法研究取得较好的预测效果。