论文部分内容阅读
结合转录调控关系和蛋白质相互作用挖掘的复合功能模块,对于解释转录机制、预测未知调控关系、揭示蛋白质功能、解释生物过程具有十分重要的意义。高通量实验技术为我们获得了大规模转录调控和蛋白质相互作用数据,然而,目前的研究或只针对某一特定网络,或侧重于整合两种关系网络上的基本组成结构研究,忽略了两种关系之间的联系及复合功能模块自身的拓扑特征,因此结合拓扑特征等网络信息挖掘复合功能模块存在巨大研究空间。融合转录调控网络和蛋白质相互作用网络,本文采用衡量复合功能模块结构紧凑性的共调控密度,提出了一种挖掘复合功能模块的算法—CRMD(Composite functional modules detection)算法。将算法应用于酵母和人类两个数据集,分析获得模块的功能一致性、富集情况、通路富集情况,并与其他算法进行了比较,功能和KEGG通路富集情况均优于其他算法的识别结果。特别是在人类数据集上,通过通路分析发现复合功能模块与人类疾病之间存在关联,以癌症为例,观察复合功能模块中癌症基因的富集情况。通过实验分析,说明CRMD挖掘的复合功能模块在功能上基本保持一致且具有潜在研究价值。上述算法是针对复合功能模块的拓扑特性,通过对转录调控关系和蛋白质相互作用的进一步分析,靶基因之间存在一种特殊关联C-pair,即同时存在蛋白质相互作用和被同一转录因子调控的基因之间存在的关系,因此本文提出了一种基于C-pair的复合功能模块挖掘算法—CPCRM(Discovering composite functional modules based on C-Pair)算法。分别用于酵母和人类两个数据集,分析模块的功能通路富集情况,CPCRM的检测结果均优于其他算法。在酵母数据集上,分析了核及模块的基因表达情况,及复合功能模块与特殊复合物的关联;在人类数据集上,分析模块的癌症基因富集情况,以乳腺癌为例,检测了乳腺癌相关的活性复合功能模块。通过两个数据集上的实验分析说明CPCRM挖掘的复合功能模块富集大量的生物功能信息。