论文部分内容阅读
随着“后基因时代”到来,人类基因组计划和随后发展的各种组学技术以及高通量实验方法的发展,导致大量的基因组、转录组、蛋白质组学、代谢组等组学数据的产生,现代生物信息整合以及挖掘方法和技术等,也让人们已经积累了大量的生物信息学数据。拥有大规模海量生物数据,综合运用数学、计算机科学和生物学等方法研究分析和挖掘生物数据成为当前研究的热点。数据挖掘是在大型数据存储库中,自动地发现有用信息的过程,是生物数据挖掘采用的主要分析技术。目前生命科学研究重点已经从基因组学逐渐转移到蛋白质组学,利用数据挖掘的方法,从蛋白质相互作用网络的拓扑结构出发,预测蛋白质之前的相互作用,进而探寻和识别蛋白质相互作用网络的模块结构,注释未知蛋白质的功能,是理解细胞功的组织结构以及动态性的重要方法。 本文以蛋白质组学数据研究为主,从蛋白质互作网络拓扑结构特性出发分析各种蛋白质加权网络的特性,设计了有效地蛋白质相互作用预测算法,在这个预测后的蛋白质互作网络的基础上研究设计了蛋白质复合物和功能模块识别算法,主要研究工作包括: 1.应用复杂网络理论和图论的分析技术,分析蛋白质网络拓扑结构特性,充分利用蛋白质加权网络上的权重信息,构建马尔科夫机制,根据不同的蛋白质网络拓扑结构性,收集网络中结点的不同高阶邻居信息,设计基于加权网络的结点相似性度量函数,提出了模拟马尔科夫过程的蛋白质相互作用网络链路预测算法。该算法不需要任何其他的辅助输入信息,并且算法既可以对有权的蛋白质相互作用网络,也可以在无权网络上进行链路预测,既可以对蛋白质复杂网络进行链路预测,也可以对其他社会网络进行链路预测,简单有效。实验结果表明其链路预测的准确性和实用性。 2.针对目前能够获得蛋白质相互作用数据不完全,以及直接从蛋白质网络中寻找全联通(极大团)的方法来预测蛋白质复合物这一局限性,我们在利用链路预测算法得到的蛋白质互作网络上,根据蛋白质复合物内部结构特征,定义了新颖的HP*-complex蛋白质复合物模型,提出了基于Hub蛋白的蛋白质复合物挖掘算法HPCMiner,实验结果表明,通过HP*-complex蛋白质复合物模型,以及HPCMiner方法能够有效地标示已知的蛋白质复合物,并且具有较高的敏感度、特异性和综合评价。特别地,定义的蛋白质复合物模型可能是一个非联通图,算法通过模型分解找到的更精确的蛋白质复合物,算法在预测后的蛋白质网络上进行蛋白质复合物识别,具有较好的健壮性,能够识别比较多的具有生物意义的蛋白质复合物。 3.针对目前蛋白质网络数据存在假阴性、假阳性数据问题,提出了一种基于随机游走模型的蛋白质复合物识别算法RWSPFinder,算法通过蛋白质加权网络上的随机游走,以及后续对蛋白质复合物内部进行基于基因本体GO语义相似性的过滤的过程,能够应对蛋白质互作网络的假阴性、假阳性数据进行过滤,能够在较高噪声的情况下有效识别蛋白质复合物,通过实验验证了算法的有效性,可以为生物学家进行蛋白质复合物识别的实验和进一步研究提供有价值的参考信息。 本文重点研究了生物组学网络中的蛋白质作用组学数据,针对目前少有研究的蛋白质加权网络,定义了新颖的网络链路预测模型,提出了能有有效的预测蛋白质互作网络链路预测算法;在预测后蛋白质互作网络上,根据生物学中蛋白质复合物的结构特性,定义了新的复合物模型和算法,模型有效并且能够识别出从统计意义上证明有意义的蛋白质复合物和模块,预测了一定数量的未知蛋白质的功能;另外,本文提出一个能够过滤掉蛋白质相互作用网络上假阴性、假阳性数据的蛋白质复合物识别算法,将会对生物学家进行蛋白质复合物的研究有指导意义,对生物实验发挥重要作用。本文提出的蛋白质互作网络的链路预测方法以及蛋白质复合物识别算法,将为复杂生物网络的链路预测以及蛋白质模块识别树立一个很好的范例。