论文部分内容阅读
大多数生命活动都是由多个蛋白质相互作用共同完成的。随着高通量实验技术的发展产生了大量的蛋白质相互作用数据。通过构建蛋白质相互作用网络使得我们能从系统水平来理解分子生物学系统,进而研究分子功能及其相互作用。也为生物进化研究提供了新的视角。本文采用随机游走模型,结合蛋白质相互作用网络数据和其它生物数据,深入研究了关键蛋白质识别,蛋白质复合物挖掘,蛋白质功能预测以及保守复合物挖掘几个问题。提出一种基于PageRank算法的关键蛋白预测方法。该方法不仅依据蛋白质的连通性而且考虑了它们的同源特性以及它们邻居的特性。该方法首先基于蛋白质的同源性给每个蛋白质赋予一个初始得分。因为关键蛋白质具有成簇存在的特性,用边聚集系数给网络中的边加权。最后反映蛋白质关键性的得分是它的同源性得分和邻居关键性得分的线性组合。在基于酵母和大肠杆菌两个物种数据上的实验结果表明该方法识别关键蛋白的性能要高于其它八种现有方法。通过结合蛋白质复合物核心-附件结构以及网络的全局信息提出了新的方法来识别蛋白质复合物。该方法首先通过赋予邻居节点不同的可能性提出了一个加权的PageRank-Nibble算法。然后采用加权的PageRank-Nibble算法来识别网络中初步的蛋白质复合物。再识别初步的蛋白质复合物中的核心和附件结构从而形成最后预测的蛋白质复合物。在酿酒酵母数据上的实验结果表明该方法识别的蛋白质复合物在准确性和生物显著性上都要优于其它方法。本文首先根据已知的蛋白质功能注释信息分析了蛋白质会和它的哪层邻居共享功能,GO Term会和它的哪层邻居共同注释同一个蛋白质。然后采用一个不平衡的双随机游走算法在两个网络上游走不同的步数,从而得到蛋白质和GO Term不同层次邻居的信息来预测蛋白质的功能。基于酿酒酵母数据的实验结果表明该方法的预测性能比其它那些只利用蛋白质相互作用网络数据的方法要好,也比那些考虑蛋白质和GO Term相同层次邻居的方法性能要好。基于划分-匹配策略提出了一种新的局部网络比对方法来挖掘保守蛋白质复合物。该方法首先将蛋白质相互作用网络划分成若干子网络,然后将这些子网络匹配到另外一个蛋白质相互作用网络上去,来找到两者共同的连通模块。在查找共同的连通模块的过程中,采用一个宽松的策略。也就是我们在局部扩充一对同源蛋白质时,只要求至少与其中的一个蛋白质在相应的网络中存在一条长度不超过2的路径。通过比对酵母和果蝇,人类和果蝇的蛋白质相互作用网络,实验结果表明该方法识别的保守蛋白质复合物能更好地匹配已知复合物,而且这些来自不同物种的保守蛋白质复合物在功能上也相似。