论文部分内容阅读
随着后基因组时代的到来,生物信息学的主要研究内容已经发生改变,其中蛋白质三级结构预测成为该领域一个新的研究热点。蛋白质是最早被广泛研究的生物大分子,其功能与结构有着十分密切的关系,所以蛋白质三级结构的确定是生物学的重要研究内容。蛋白质三级结构预测在其功能研究、细胞组织中定位、药物设计等方面有着重要的应用。目前,蛋白质三级结构的实验测定方法仍然受到很大限制,未能准确获得蛋白质三级结构,是阻碍对蛋白质功能的深入认识和与蛋白质相关产业进一步发展的瓶颈。尽管在众多研究人员不断努力下,利用机器学习方法进行预测取得一定进展,且预测方法推陈出新,蛋白质三级结构的预测精度不断提高,高相似性数据集可以达到较高的精度,但是低相似性数据集的预测精度还不够理想。近些年来,机器学习发展迅速,本文将运用机器学习方法解决蛋白质三级结构在低相似性数据集上的预测问题。本文通过提出更好的特征提取方法、构建更合理的分类模型和采用集成学习三个方面,完成蛋白质三级结构预测实验并最终提高预测精度。常用的特征提取方法都是基于蛋白质序列,本文将蛋白质序列转化为二级结构序列和简化二级结构序列,提出了基于二级结构的特征提取方法。根据以往的实验结果,α/β类和α+β类之间的分类效果并不好,本文根据这两类结构的不同生物学特性,提出了新的特征提取方法。本文构建了两种不同结构的层次分类模型,为了验证两种模型的效果,本文选取了三种低相似性数据集:640数据集、25PDB数据集和1189数据集,采用柔性神经树作为基分类器,分别使用两种模型完成实验,得到预测精度,选出了可以达到更高预测精度的层次分类模型。在上一步实验的基础上,采用集成学习来设计新的实验。采用柔性神经树、支持向量机和人工神经网络作为基分类器,采用基于蛋白质序列和基于二级结构两种不同的特征提取方法构建了两组不同的特征向量,最终构造了5个有差异性的基分类器来实现集成学习。本文的实验结果与其他文献中的结果对比,在三个数据集上,预测精度分别提高了5.57%、4.53%和2.16%。该结果表明,本文提出的方法可以提高低相似性数据集在蛋白质三级结构预测问题上的精度,本文提出的方法是可行和有效的。