基于GMM的基因外显子预测算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:Lotus35000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技的飞速发展使得生物信息学得到广泛的关注,它的主要研究对象之一是基因组学。随着人类基因组全部序列测序的完成,核苷酸数据库中的序列和碱基数量得到迅猛的增长,因此能够正确识别基因序列中的外显子部分是处理飞速增长的DNA序列数据的需要。本文将信号处理的方法与基因序列的生物特性相结合,根据基因序列编码区的周期特性实现了基因序列中外显子的预测。本文主要从四方面对基因外显子预测做了具体的介绍。第一部分介绍了生物信息学的相关背景知识,并且在此基础上进一步介绍了基因预测的研究现状及研究意义。第二部分从生物序列的特性出发,介绍了序列的数值映射方法,并且对序列在编码区的周期三特性作了具体的说明,为对序列进行特征提取打下基础。特征提取是对生物序列进行处理的关键部分,本文第三部分介绍了常用的时域和频域特征提取方法,如平均幅度差分函数、奇异值分解、DFT变换、成对加权谱旋转测量等,并且在此基础上将信息熵的方法以及音乐信号处理中常用的幅度差平方和函数用在基因预测中,并且取得了很好的预测效果。最后,在第四部分将多种不同时域和频域特征混合使用,通过统计学习的方法实现用多维特征对基因外显子进行预测。本文主要选取了GMM作为分类器,通过对其进行训练获得GMM的参数集,以此作为测试的依据对序列中外显子进行预测,这里重点介绍了GMM中的核心算法——EM算法。总之,通过对基因序列进行深入的研究,本文将信号处理的方法应用到生物信号领域,很好地实现了对基因外显子预测。
其他文献
本研究首先采用质粒共转染和竞争性RT-PCR方法对本组从HTLV-I活化的人外周血T淋巴细胞MATCHMAKERcDNA文库中筛选到的NRE结合蛋白ITF2B在Jurkat细胞、B3D5细胞及BJAB细胞中对I
在当今社会飞速发展的环境中,图像处理技术已经变得越来越重要,图像的数字化处理已经在科学研究、医疗卫生以及国防军事等领域发挥着越来越大的作用,大的方向包括国防上用的无人