论文部分内容阅读
蛋白质翻译后修饰在蛋白质一蛋白质相互作用与细胞过程等多种生物学行为中起重要调节作用,此外,翻译后修饰与许多疾病如癌症、糖尿病等相关,因此翻译后修饰位点预测对于了解生命过程与疾病的预防治疗等有重大意义。丝氨酸和苏氨酸上的翻译后修饰类型主要包括磷酸化、O-糖基化与乙酰化。实验技术的不断发展,积累了大量的翻译后修饰位点数据。由于实验方法成本高,且受环境条件限制,因此促进了计算方法的不断发展。目前已有的计算方法大部分通过蛋白质的局部序列信息进行模型训练,且只能对一种翻译后修饰进行预测。现研究表明in situ PTM可以反映不同翻译后修饰间潜在功能联系,因此如将其应用于翻译后修饰预测研究,可有效提升翻译后修饰位点预测能力。本文提出了表征in situ PTM信息的位点-修饰网络(site-modification network, SMNet),之后利用SMNet网络特征进行丝氨酸和苏氨酸上翻译后修饰位点预测。具体研究内容如下:首先,本文从多种翻译后修饰数据库中收集人类翻译后修饰数据,从中提取in situ PTM信息,并利用该信息构建SMNet网络。之后将SMNet网络特征与蛋白质序列特征整合成特征集,并利用支持向量机(Support Vector Mechine, SVM)进行翻译后修饰位点预测,该过程被称为SMNet-SVM方法。SMNet-SVM可进行不同类型的翻译后修饰位点预测。本文利用10折交叉验证对SMNet-SVM方法性能进行评估,结果分析表明,SMNet网络特征在翻译后修饰位点预测中发挥重要作用,明显地提高了预测性能。此外,与其他翻译后修饰预测方法的结果比较显示,SMNet-SVM方法的预测性能明显优于其他方法。最后对预测结果进行文献的验证,显示SMNet-SVM方法能够有效的预测出潜在的翻译后修饰位点。为进一步提高预测性能,在SMNet网络信息的基础上,本文引入了从AmiGO与STRING数据库中提取蛋白质功能信息基因本体论与蛋白质-蛋白质相互作用。之后,将这些数据进行整合与构建,并与多核学习和核岭回归的方法结合,进行丝氨酸和苏氨酸上的翻译后修饰位点预测。预测结果显示出蛋白质功能信息有助于进一步提高翻译后修饰位点的预测性能。