论文部分内容阅读
序列比对是生物信息学中基本的信息处理方法,对于发现核酸和蛋白质序列上的功能、结构和进化的信息具有非常重要的意义。随着生物序列数据库中数据的快速增长,开发具有高度敏感性和效率的算法就显得非常迫切。免疫遗传算法将遗传算法与免疫原理结合起来考虑,在传统遗传算法的框架之上,引入了免疫系统的免疫调节机制、多样性保持策略诸多特性等,有效地防止了搜索过程中的未成熟收敛等问题,是一种更加有效的优化算法。本文首先介绍了生物信息学发展、研究内容,以及序列比对研究现状和相关算法的问题,然后详细的描述了序列比对中空位罚分策略、相似性记分矩阵和目标函数对比对结果的影响。根据比对序列的数量,文章又分类介绍了双序列比对和多序列比对相关的标准比对算法,系统地论述了双序列比对中的点阵图算法、动态规划算法和多序列比对中的渐进比对算法及基于迭代策略的多序列比对算法,并阐述了相关经典算法,如渐进比对CLUSTALW算法和迭代改进的遗传多序列比对算法SAGA的原理。在对序列比对算法的研究以及遗传算法和免疫遗传算法原理的分析的基础上,文章提出并设计了免疫遗传多序列比对算法,算法根据生物免疫系统的抗原识别、抗体的多样性保持策略和免疫记忆的特性,将生物系统免疫思想引入到遗传算法多序列比对中,通过计算抗体之间的亲和度及基于矢量距的免疫选择方法来促进和抑制抗体,既保留了全体中的较优抗体又保证了抗体的多样性,避免了在用遗传算法进行序列比对过程中遇到的搜索进化过早收敛的问题,算法得到全局最优解,同时与文献中基于信息熵的免疫遗传算法比较,本文算法减少了先验参数的输入、提高了收敛速度。文章最后通过实验对算法进行了可行性和有效性验证,取得了较好的结果。