基于PBIL算法的蛋白质二级结构预测研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:mashangdenglu998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息学研究中,蛋白质二级结构预测是重要的研究内容之一。从氨基酸序列来预测蛋白质二级结构,这本身就是我们理解蛋白质结构和功能的重要一步。在分子生物学中,若能成功的预测蛋白质二级结构,则能比较准确地预测蛋白质分子的三维空间结构,对蛋白质序列的分析、结构序列的缠绕及确定蛋白质分子功能也具有重要意义。因此,蛋白质二级结构的预测一直是最近几十年来蛋白质结构学家、生物信息学家和人工智能学家所关注的问题。本文采用PBIL算法尝试解决蛋白质二级结构预测问题。该方法使用从已知信息中总结出来的一些规律,采用一个概率优化算法进行预测。问题的关键是构造进化适应度函数,即优化函数与罚函数的组合问题。如何发现并使用数学方法描述这些函数是该方法应用于蛋白质二级结构能否获得好的预测结果的关键。蛋白质中氨基酸残基之间、二级结构之间存在许多潜在的规律或规则。这些规律发现并应用的越多,最后取得的结果就越好。本文主要研究内容概括如下:(1)传统的PBIL算法只能适用于二进制编码,本文对其作了适当的改进,使之能适用于任意整数编码,并采用了系统信息熵值作为进化结束条件的判据。(2)建立了基于CB513数据库的概率数据模型,并对氨基酸残基进行了编码,分别作了单残基、双残基、三残基、四残基的适应度函数设计。实验结果表明,PBIL算法能有效预测蛋白质的二级结构。(3)对蛋白质二级结构的规律的挖掘是十分重要的,本文将连贯性规则应用到蛋白质二级结构预测中,同时对CB513蛋白质数据库进行了切片统计,得到当氨基酸残基中连续六个二级结构相同时,具有最多的确定性;实验表明,将此规则应用到蛋白质二级结构的预测中,能得到较好的预测结果。(4)Chou-Fasman方法是一种基于单个氨基酸残基的经验参数方法,当Chou-Fasman方法预测的二级结构与由随机概率P所指导产生的个体对应位置的二级结构相同时,则将适应度函数加上一个奖励数;否则减去一个惩罚数,从而提高适应度函数的优化能力,提高预测的准确率。
其他文献
在信息飞速增长的时代,分布式数据库成为大型企业存储信息的首选方式,方便快速的查询关系数据成为一个科研难题。随着网络技术和搜索技术的兴起,关键字查询与传统的SQL查询相
普适计算可以随时随地的提供计算服务,当具有计算、感知能力的设备节点无处不在时,节点如何自动获得其它节点所提供服务并实现各节点间的相互协作是亟待解决的关键问题。信息
随着互联网的不断发展,智能手机、平板电脑等智能终端在人类生活中的普及以及移动网络带宽的不断提高,使得微信、微博等社交媒体已经渐渐成为了人类生活中不可或缺的部分。人们
随着结构化数据在互联网应用中的大量出现,对复杂数据进行图建模在近年来越来越流行。图索引问题在图数据库应用中至关重要。本文主要研究了图数据库上的图索引问题。本文提
癫痫是影响人类健康的一种神经系统疾病,给患者和社会带来严重的影响。脑电是常用的一种癫痫诊断技术,但受到技术限制,癫痫脑电目前还主要依靠医生经验人工判断,尚未实现自动诊断
随着计算机技术的高速发展,计算机系统被广泛的应用于航空航天、军事国防、医疗卫生等高可靠性领域,人们对计算机系统在软件和硬件方面的可靠性要求也大大提高。因此,计算机
寻求新型有效的压缩方法始终是数字媒体领域的关键问题之一。基于内容的压缩代表着新一代的压缩方法,也是本课题所提出的冗余内容压缩方法的来源。传统的数据压缩算法中,通常没
网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫发生频率增高、潜伏性变强、覆盖面更广。不断给网络造成的巨大危害表明,传统的防病毒技术已不能满足网络蠕虫防治的
与文本无关的说话人识别的研究,由于其实用性,成为当今语音识别领域中的热门课题,经过几十年的发展,已经取得了巨大进展。尽管在实验室环境下,说话人识别系统已经取得了比较
学位