论文部分内容阅读
蛋白质复合物是细胞内进行生物过程最重要的功能单元之一,因此识别蛋白质复合物对于理解细胞组织和功能的原理非常重要。传统的实验识别蛋白质复合物方法过于复杂,而基于计算的方法识别出的蛋白质复合物不能避免出现高假阳性的测试结果。在本文中考虑了蛋白质相互作用(Protein-Protein Interaction,PPI)网络的拓扑特性和生物学特性,针对蛋白质复合物存在噪声和重叠结构的识别效率较低等问题进行研究与分析。针对现有蛋白质相互作用数据假阳性高的问题,考虑PPI网络节点拓扑特征,构建加权蛋白质相互作用网络,提出了一种基于加权蛋白质相互作用网络的蛋白质复合物识别算法(Clustering algorithm of backbone-degree tree based on weighted protein-protein interaction network for protein complex identification,BTW)。该算法首先通过分析PPI网络节点拓扑特征,利用加权骨干度算法来权衡PPI网络,然后通过Walktrap算法对PPI网络执行聚类,分别在多个酿酒酵母的PPI网络数据集中进行实验,聚类实验结果显示算法较MCL、Walktrap等算法假阳性高的问题,识别精度和性能都有显著提升。针对不能识别重叠蛋白质复合物并且忽略了蛋白质之间的功能信息。提出了一种基于拓扑特征和和基因本体信息识别重叠蛋白质复合物算法(Clustering algorithm based on topological features and gene ontology information for protein functional module identification,WCFM)。通过选取基因本体语义相似性度量蛋白质对相互作用不同程度的强弱关系,建立加权网络模型。该方法对PPI网络中的边进行加权,从而减少了对网络拓扑结构的依赖性。实验结果表明,将基因本体信息与PPI数据相结合可以提高识别蛋白质复合物的准确性,使结果更具有生物学意义。设计并开发了PPI网络可视化分析平台Cluster C。该平台目前已集成了实现了ClusterONE、SPICi和MCL等8个聚类算法和F-measure、Accuracy等5个评估方法。同时将D3.js可视化技术应用到大型的蛋白质相互作用网络上,对PPI网络和聚类的结果进行可视化,以更好的方式解释生物现象。