基于二级结构的蛋白质三级结构预测

来源 :济南大学 | 被引量 : 8次 | 上传用户:wangsong1st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着后基因组时代的到来,生物信息学的主要研究内容已经发生改变,其中蛋白质三级结构预测成为该领域一个新的研究热点。蛋白质是最早被广泛研究的生物大分子,其功能与结构有着十分密切的关系,所以蛋白质三级结构的确定是生物学的重要研究内容。蛋白质三级结构预测在其功能研究、细胞组织中定位、药物设计等方面有着重要的应用。目前,蛋白质三级结构的实验测定方法仍然受到很大限制,未能准确获得蛋白质三级结构,是阻碍对蛋白质功能的深入认识和与蛋白质相关产业进一步发展的瓶颈。尽管在众多研究人员不断努力下,利用机器学习方法进行预测取得一定进展,且预测方法推陈出新,蛋白质三级结构的预测精度不断提高,高相似性数据集可以达到较高的精度,但是低相似性数据集的预测精度还不够理想。近些年来,机器学习发展迅速,本文将运用机器学习方法解决蛋白质三级结构在低相似性数据集上的预测问题。本文通过提出更好的特征提取方法、构建更合理的分类模型和采用集成学习三个方面,完成蛋白质三级结构预测实验并最终提高预测精度。常用的特征提取方法都是基于蛋白质序列,本文将蛋白质序列转化为二级结构序列和简化二级结构序列,提出了基于二级结构的特征提取方法。根据以往的实验结果,α/β类和α+β类之间的分类效果并不好,本文根据这两类结构的不同生物学特性,提出了新的特征提取方法。本文构建了两种不同结构的层次分类模型,为了验证两种模型的效果,本文选取了三种低相似性数据集:640数据集、25PDB数据集和1189数据集,采用柔性神经树作为基分类器,分别使用两种模型完成实验,得到预测精度,选出了可以达到更高预测精度的层次分类模型。在上一步实验的基础上,采用集成学习来设计新的实验。采用柔性神经树、支持向量机和人工神经网络作为基分类器,采用基于蛋白质序列和基于二级结构两种不同的特征提取方法构建了两组不同的特征向量,最终构造了5个有差异性的基分类器来实现集成学习。本文的实验结果与其他文献中的结果对比,在三个数据集上,预测精度分别提高了5.57%、4.53%和2.16%。该结果表明,本文提出的方法可以提高低相似性数据集在蛋白质三级结构预测问题上的精度,本文提出的方法是可行和有效的。
其他文献
测树用表是林业调查设计和林业生产的必要工具,如不得当,将影响这些工作的质量。我国的测树用表基本上是五十年代编制的,由于受苏修框框的影响,大多存在问题。为了适应林业生
<正>一、调查背景、范围及目的课改10年来,学生获取知识的途径及其视野发生了巨大变化,在课程改革理念的引领下,广大教师对新教材进行不断地解读和反复实践,取得了一系列的成
目前,中国已经进入人口老龄化快速发展的阶段,传统的居家养老力量不足,迫切需要推进社会化养老。完善老年人社会福利政策已经成为中国社会福利改革的关键领域。面对老年人福
<正>果胶是来源于植物界的可溶性膳食纤维,小分子柑橘果胶是将天然柑橘果胶水解后的产物,人体摄入后能够在胃肠道形成膜,阻止酒精的吸收,也能够进入血液促进已经吸收的酒精分
<正> 一、税收成本与效率衡量的目的与原则 税收成本与效率指标体系建立的目的,是希望运用数据说明情况,反映问题:是希望通过诸指标从不同角度、不同侧面全面、真实准确地反
目的对多发创伤的骨折救治临床体会进行总结。方法收集2009年1月至2011年10月我院救治的60例多发创伤的骨折患者,对所有患者的临床资料进行统计分析,总结更为有效的处理方法
<正>无论是2001年开始的全国地理高考,还是福建省高中新课程实验后的自主命题,都十分重视对地理能力测试的考查,历年《福建省高考文综考试说明》地理部分均特别强调四种能力
萨维尼的法律关系本座说结束了统治长达五百年的法则区别说。笔者运用历史的方法分析其法律关系本座说的本质,同时,从经济学的角度对其进行研究。
目前随着生活水平的提高,公共体育服务设施的完善,越来越多的老年人开始注重自身的健康状况;本文通过乒乓球运动对老年人健身价值的影响研究,制定实现老年人健身的相应对策,
文章指出将生态和谐与可持续发展的观点引入课堂教学,有助于形成生动活泼的教学氛围,促进师生的共同发展。在教学过程中,结合汇编语言课程的特点和实际教学经验,概括出几种操作性