论文部分内容阅读
科技的飞速发展使得生物信息学得到广泛的关注,它的主要研究对象之一是基因组学。随着人类基因组全部序列测序的完成,核苷酸数据库中的序列和碱基数量得到迅猛的增长,因此能够正确识别基因序列中的外显子部分是处理飞速增长的DNA序列数据的需要。本文将信号处理的方法与基因序列的生物特性相结合,根据基因序列编码区的周期特性实现了基因序列中外显子的预测。本文主要从四方面对基因外显子预测做了具体的介绍。第一部分介绍了生物信息学的相关背景知识,并且在此基础上进一步介绍了基因预测的研究现状及研究意义。第二部分从生物序列的特性出发,介绍了序列的数值映射方法,并且对序列在编码区的周期三特性作了具体的说明,为对序列进行特征提取打下基础。特征提取是对生物序列进行处理的关键部分,本文第三部分介绍了常用的时域和频域特征提取方法,如平均幅度差分函数、奇异值分解、DFT变换、成对加权谱旋转测量等,并且在此基础上将信息熵的方法以及音乐信号处理中常用的幅度差平方和函数用在基因预测中,并且取得了很好的预测效果。最后,在第四部分将多种不同时域和频域特征混合使用,通过统计学习的方法实现用多维特征对基因外显子进行预测。本文主要选取了GMM作为分类器,通过对其进行训练获得GMM的参数集,以此作为测试的依据对序列中外显子进行预测,这里重点介绍了GMM中的核心算法——EM算法。总之,通过对基因序列进行深入的研究,本文将信号处理的方法应用到生物信号领域,很好地实现了对基因外显子预测。