论文部分内容阅读
在生物信息学研究中,蛋白质二级结构预测是重要的研究内容之一。从氨基酸序列来预测蛋白质二级结构,这本身就是我们理解蛋白质结构和功能的重要一步。在分子生物学中,若能成功的预测蛋白质二级结构,则能比较准确地预测蛋白质分子的三维空间结构,对蛋白质序列的分析、结构序列的缠绕及确定蛋白质分子功能也具有重要意义。因此,蛋白质二级结构的预测一直是最近几十年来蛋白质结构学家、生物信息学家和人工智能学家所关注的问题。本文采用PBIL算法尝试解决蛋白质二级结构预测问题。该方法使用从已知信息中总结出来的一些规律,采用一个概率优化算法进行预测。问题的关键是构造进化适应度函数,即优化函数与罚函数的组合问题。如何发现并使用数学方法描述这些函数是该方法应用于蛋白质二级结构能否获得好的预测结果的关键。蛋白质中氨基酸残基之间、二级结构之间存在许多潜在的规律或规则。这些规律发现并应用的越多,最后取得的结果就越好。本文主要研究内容概括如下:(1)传统的PBIL算法只能适用于二进制编码,本文对其作了适当的改进,使之能适用于任意整数编码,并采用了系统信息熵值作为进化结束条件的判据。(2)建立了基于CB513数据库的概率数据模型,并对氨基酸残基进行了编码,分别作了单残基、双残基、三残基、四残基的适应度函数设计。实验结果表明,PBIL算法能有效预测蛋白质的二级结构。(3)对蛋白质二级结构的规律的挖掘是十分重要的,本文将连贯性规则应用到蛋白质二级结构预测中,同时对CB513蛋白质数据库进行了切片统计,得到当氨基酸残基中连续六个二级结构相同时,具有最多的确定性;实验表明,将此规则应用到蛋白质二级结构的预测中,能得到较好的预测结果。(4)Chou-Fasman方法是一种基于单个氨基酸残基的经验参数方法,当Chou-Fasman方法预测的二级结构与由随机概率P所指导产生的个体对应位置的二级结构相同时,则将适应度函数加上一个奖励数;否则减去一个惩罚数,从而提高适应度函数的优化能力,提高预测的准确率。