论文部分内容阅读
蛋白质相互作用间的信号传递方向对生物体内大多数的信号转导是非常重要的。随着生命科学研究的不断深入,积累了大量的蛋白质相互作用数据以及由这些数据构成的蛋白质相互作用网络,同时也出现了通过各种形式对蛋白质相互作用网络进行注释的方法。然而,仅有少数研究人员用蛋白质相互作用间的信号传递方向对蛋白质相互作用网络进行注释。在目前的研究中,大多数预测蛋白质相互作用间信号传递方向的方法,都是从蛋白质相互作用网络出发,仅考虑网络的拓扑属性,很少涉及KEGG中经过注释的蛋白质相互作用数据。少数利用已注释的蛋白质相互作用数据的方法也是从蛋白质相互作用出发,基于GO注释或者结构域相互作用与蛋白质相互作用的关系,构建表示方向信息的特征矩阵,训练用于分类的预测模型。然而,这些方法对蛋白质结构域的理化特性都没有涉及。为了解决这一问题,本研究设计了一种从蛋白质结构域的十种理化性质出发,预测蛋白质相互作用间信号传递方向的方法,基于该方法训练了一个用于蛋白质相互作用方向预测的支持向量机模型,并将该模型用于蛋白质相互作用类别预测。首先,我们利用有特定方向的蛋白质相互作用数据,计算蛋白质结构域的十种理化性质,构成可以表示蛋白质相互作用方向信息的特征矩阵,并用特征矩阵训练一个用于蛋白质相互作用间信号传递方向预测的支持向量机模型,通过对比试验和网格搜索算法,对支持向量机模型的核函数、惩罚因子以及核函数参数进行选择,完成了对预测模型的优化。然后,通过五次五倍交叉验证,对预测模型的整体性能进行了分析,模型可以有效、稳定用于蛋白质相互作用间信号传递方向预测;与不同分类方法、不同预测方法的性能比较,进一步说明我们的预测模型的有效性;对影响预测模型精度的结构域理化特性组合进行了研究,说明十种理化特性的必要性;通过不同物种数据集上的性能对比,发现预测模型在进化程度高的物种上的性能更好。我们将基于结构域理化性质的方法用于人类蛋白质相互作用间的激活/抑制类别的预测,进行了相关研究,预测结果为之后蛋白质相互作用间信号传递类别预测提供了参考。总的来说,本文提出了一种基于结构域理化性质信息预测蛋白质相互作用间信号传递方向的方法;通过此方法建立的支持向量机模型可以有效用于蛋白质相互作用间信号传递方向的预测。另外,本研究还对影响预测模型精度的结构域理化性质组合进行了研究,证明结构域十种理化性质的必要性;并将基于结构域理化性质的方法扩展到人类蛋白质相互作用类别研究。这可以为研究人员利用蛋白质相互作用方向和类别对蛋白质相互作用网络进行进一步注释提供新的思路。