论文部分内容阅读
基因本体主要用于描述基因和基因产物的属性,包括分子功能、生物过程和细胞组件三个方面。基因本体的术语相似度计算及术语扩展对基因功能分析、比较和预测等生物学研究热门领域具有非常重要的意义。现有相似度算法只考虑了基因本体中的部分信息或者受基因本体自身不完整性的影响,并不能够准确地衡量基因本体术语之间的相似度以及进一步衡量基因之间的相似度。此外,针对基因本体的不完整性,急需一个能够准确、自动地扩展基因本体术语的算法,来完善基因本体,从而满足生物数据爆炸式增长带来的构建和更新本体的需求。本文针对基因本体的术语相似度计算和术语扩展问题进行深入研究,主要内容如下:(1)基因本体是由领域科学家通过收集实验数据、文献资料等手工构建而成,基因本体本身并不完整,只包含已发现的部分基因功能注释信息,导致基因本体同分支中术语相似度计算的不准确。针对这一问题,本文提出了基于基因功能网络的基因本体同分支术语相似度算法NETSIM,在考虑基因本体所包含的信息的基础上,利用基因功能网络中包含的基因互作信息来弥补基因本体不完整性对术语相似度计算造成的影响。为了测试NETSIM算法的性能并同已有的同类算法进行比较,本文使用酵母、拟南芥和人类代谢反应网络三个数据集进行测试。结果表明,与现有的同类算法相比,NETSIM算法在具有不同基因本体注释密度的物种上都具有较高的准确性和鲁棒性。(2)基因本体包括分子功能、生物过程和细胞组件三个分支,不同分支术语之间的的关联关系不但能够为基因注释提供非常有用的证据,而且能够帮助解释生物学现象和提出生物学假设。目前的大部分术语相似度算法解决的是同分支术语相似度问题而忽略了跨分支术语相似度问题。仅有的跨分支术语相似度算法也只是简单地考虑术语名称之间的文本相似性或术语注释基因的重合度,并不能准确地计算跨分支术语之间的相似度。针对这一问题,本文提出了基因本体跨分支术语相似度算法Cro GO,利用具有物种特异性的基因功能网络发现基因本体跨分支术语之间的关联关系,同时利用向上传递的方法衡量跨分支术语对的信息量解决了术语对层次定位的问题。本文在标准数据集上比较Cro GO和同类算法的跨分支相似度计算结果。结果表明Cro GO算法的相似度计算准确性最高。本文还基于Cro GO算法建立了具有物种特异性的酵母和人类术语关联网络。富集分析测试表明,基于Cro GO算法建立的网络的准确性和覆盖率远远优于基于其他方法建立的网络。(3)基于基因本体的术语相似度,进一步计算基因之间的功能相似度是当前基因本体相关研究的热点领域,即利用基因本体中包含的丰富信息(包括注释信息,结构信息,最低公共祖先等)来比较基因之间的功能相似度。尽管目前已经有数十个基于基因本体衡量基因功能相似度的算法,但是这些算法一般都仅考虑了基因本体中某一种或几种类型的关系而忽略了其他有意义的信息,因此只能准确的衡量部分基因之间的功能相似度。针对上述问题,本文提出了基于多方法整合的基因功能相似度算法Inte GO2,旨在全面利用基因本体中包含的各种信息。Inte GO2算法能够自动选择合适的候选方法,然后基于启发式搜索方法整合这些候选方法。在基因本体分子功能分支和生物过程分支中的实验结果表明,Inte GO2算法的性能显著优于现有的基于基因本体的基因功能相似度算法。同时,Inte GO2算法对于不同输入的待整合算法集具有较好的鲁棒性,逐一去掉所有被整合算法中性能最好的4个算法,Inte GO2算法仍然具有较好的性能;加入一个基因相似度为随机生成的算法,Inte GO2算法仍然具有较好的性能。(4)目前的基因本体主要依赖于领域专家手工构建,但是由于生物知识和数据的爆炸式增长,领域专家很难将其充分转化为基因本体中的术语和注释信息。为了提高基因本体术语扩展的效率,迫切需要自动化扩展基因本体术语的方法,辅助领域专家扩展基因本体术语。针对这一需求,本文提出了基于基因网络聚类分析的基因本体术语扩展算法GOExtender,该算法能够通过整合与分析多个生物网络数据,从已有基因本体中选取可扩展术语,通过预测选取术语的子孙节点术语扩展现有基因本体。本文选取了4个不同版本(2007、2009、2011和2013)的基因本体数据,分别在生物过程和分子组件分支中进行了性能测试实验。和同类算法相比,GOExtender能够更加准确的扩展基因本体,生成新的基因本体术语。在此基础上,本文进一步选择了部分扩展术语在文献中进行了校验,结果表明发现的新术语能够在文献中找到有力的证据支持,极大地完善了基因本体。