论文部分内容阅读
蛋白质相互作用在生命活动中发挥关键作用,PPI一旦发生异常,则会导致各种疾病的发生。准确地识别蛋白质相互作用,不仅能从分子水平上理解生命现象的本质,而且对疾病机制的探究和治疗设计非常有用。在过去几十年中,迅速发展的高通量技术已经验证了大量的蛋白质-蛋白质相互作用(PPI)数据,然而,这些生物实验成本高且耗时,并且具有有限覆盖率和高假阳性,人们开始发展计算方法来进行对PPI的有效预测。本文围绕基于序列的蛋白质相互作用展开研究,其中蛋白质序列编码方法和PPI预测模型的创建与改进是研究的重心,本文通过将混沌博弈纳入到Pse AAC(伪氨基酸组成)中提出了一种新的蛋白质相互作用预测模型iPPI-PseAAC(CGR),该模型以CGR(混沌博弈表示)来提取特征信息,以随机森林这一基于投票机制的集成分类器作为预测工具来对序列进行有效预测分析。其中,保持碱基组成的平衡,最大限度地增加氨基酸编码之间的差异是CGR编码方式的最大特点,它能够保留相当多的序列顺序信息或关键模式特征。在离散模型中定义的向量可能会完全丢失所有的序列模式信息,而在此预测器中我们所使用的伪氨基酸组成能够较好地避免这一情况的发生,它已被广泛应用于计算生物学领域中。在此研究中我们使用一个72维的Pse AAC向量来表示任意蛋白质对的样本。通过酿酒酵母和幽门螺杆菌这两个基准数据集进行5倍和10倍交叉验证测试,结果证明,iPPI-PseAAC(CGR)的预测效果明显优于现有的预测方法,为蛋白质相互作用的预测给出了一种新型有效的方案。此外,还为该预测器建立了一个用户界面友好的web服务器以便公众可以访问,服务器能够根据用户的需要或自己的定义,生成生物序列所需的任何特征向量。