生物复杂网络挖掘关键问题研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:gu999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“后基因时代”到来,人类基因组计划和随后发展的各种组学技术以及高通量实验方法的发展,导致大量的基因组、转录组、蛋白质组学、代谢组等组学数据的产生,现代生物信息整合以及挖掘方法和技术等,也让人们已经积累了大量的生物信息学数据。拥有大规模海量生物数据,综合运用数学、计算机科学和生物学等方法研究分析和挖掘生物数据成为当前研究的热点。数据挖掘是在大型数据存储库中,自动地发现有用信息的过程,是生物数据挖掘采用的主要分析技术。目前生命科学研究重点已经从基因组学逐渐转移到蛋白质组学,利用数据挖掘的方法,从蛋白质相互作用网络的拓扑结构出发,预测蛋白质之前的相互作用,进而探寻和识别蛋白质相互作用网络的模块结构,注释未知蛋白质的功能,是理解细胞功的组织结构以及动态性的重要方法。  本文以蛋白质组学数据研究为主,从蛋白质互作网络拓扑结构特性出发分析各种蛋白质加权网络的特性,设计了有效地蛋白质相互作用预测算法,在这个预测后的蛋白质互作网络的基础上研究设计了蛋白质复合物和功能模块识别算法,主要研究工作包括:  1.应用复杂网络理论和图论的分析技术,分析蛋白质网络拓扑结构特性,充分利用蛋白质加权网络上的权重信息,构建马尔科夫机制,根据不同的蛋白质网络拓扑结构性,收集网络中结点的不同高阶邻居信息,设计基于加权网络的结点相似性度量函数,提出了模拟马尔科夫过程的蛋白质相互作用网络链路预测算法。该算法不需要任何其他的辅助输入信息,并且算法既可以对有权的蛋白质相互作用网络,也可以在无权网络上进行链路预测,既可以对蛋白质复杂网络进行链路预测,也可以对其他社会网络进行链路预测,简单有效。实验结果表明其链路预测的准确性和实用性。  2.针对目前能够获得蛋白质相互作用数据不完全,以及直接从蛋白质网络中寻找全联通(极大团)的方法来预测蛋白质复合物这一局限性,我们在利用链路预测算法得到的蛋白质互作网络上,根据蛋白质复合物内部结构特征,定义了新颖的HP*-complex蛋白质复合物模型,提出了基于Hub蛋白的蛋白质复合物挖掘算法HPCMiner,实验结果表明,通过HP*-complex蛋白质复合物模型,以及HPCMiner方法能够有效地标示已知的蛋白质复合物,并且具有较高的敏感度、特异性和综合评价。特别地,定义的蛋白质复合物模型可能是一个非联通图,算法通过模型分解找到的更精确的蛋白质复合物,算法在预测后的蛋白质网络上进行蛋白质复合物识别,具有较好的健壮性,能够识别比较多的具有生物意义的蛋白质复合物。  3.针对目前蛋白质网络数据存在假阴性、假阳性数据问题,提出了一种基于随机游走模型的蛋白质复合物识别算法RWSPFinder,算法通过蛋白质加权网络上的随机游走,以及后续对蛋白质复合物内部进行基于基因本体GO语义相似性的过滤的过程,能够应对蛋白质互作网络的假阴性、假阳性数据进行过滤,能够在较高噪声的情况下有效识别蛋白质复合物,通过实验验证了算法的有效性,可以为生物学家进行蛋白质复合物识别的实验和进一步研究提供有价值的参考信息。  本文重点研究了生物组学网络中的蛋白质作用组学数据,针对目前少有研究的蛋白质加权网络,定义了新颖的网络链路预测模型,提出了能有有效的预测蛋白质互作网络链路预测算法;在预测后蛋白质互作网络上,根据生物学中蛋白质复合物的结构特性,定义了新的复合物模型和算法,模型有效并且能够识别出从统计意义上证明有意义的蛋白质复合物和模块,预测了一定数量的未知蛋白质的功能;另外,本文提出一个能够过滤掉蛋白质相互作用网络上假阴性、假阳性数据的蛋白质复合物识别算法,将会对生物学家进行蛋白质复合物的研究有指导意义,对生物实验发挥重要作用。本文提出的蛋白质互作网络的链路预测方法以及蛋白质复合物识别算法,将为复杂生物网络的链路预测以及蛋白质模块识别树立一个很好的范例。
其他文献
近20年来随着互联网络的普及和高速通讯系统的推广人们的生活正面临着前所未有的变革。其中IPTV(互联网协议电视)业务的发展无疑成为了业界最受关注的焦点之一。然而作为一种
网络计算和移动计算的飞速发展使得移动网络技术受到了广泛的关注。在安全的群组通信中,一个很重要的因素就是如何分发和更新一个全组成员共享的组通信密钥,即密钥管理问题。
本文介绍了一个基于QoS的校园网直通地址计费系统的设计与实现。 本文首先介绍了QoS的思想和在校园网中实施的意义以及CERNET的按流量计费的策略,给出了课题的设计目标和
基于多处理器体系结构的网络处理器(NP)通过利用网络中存在的三种并行性:PLP、ILP、IPP,可以提供高速的处理能力。同时网络处理器具有的对硬件的完全可编程性,也使得用网络处理
  本文从数据源、系统结构、技术平台、数据仓库构建、基于数据仓库的信息处理、多维建模及OLAP应用、数据挖掘等几个方面解决了建立基于渠道系统的BI系统的一系列问题,并建
多级安全数据库管理系统的体系结构、多级安全环境下的数据模型、数据库系统的存储隐通道分析和审计、多级安全数据库系统的事务处理是研究高安全性数据加管理系统的重要内容
本论文通过对EAI技术的研究,针对本人所在企业的实际情况,提出了企业集成项目的架构设计,阐述了EAI技术层次体系,明确了框架结构的定义,给出一个基于IBMWebSphere和BEAWebLogi
本文详细研究了在最小分配单位为给定物品组合情况下的组合分配问题模型,从计算理论的角度通过构造性方法证明该问题可在多项式时间规约为于本文首先提出的无向图边带权最大独
本文主要研究和探索遗传算法和并行算法在图象矢量量化编码中的应用。遗传算法的引入解决了LBG等经典算法所存在的缺点,同时提高了运行效率。在小波变换和矢量量化编码相结合
  技术的进步导致了计算模式的一再演变,强大的计算能力、充分的带宽和廉价的存储设备成为了P2P计算模式的促进力量。P2P以更有效的方式利用资源,同时深刻影响着其他领域。本