论文部分内容阅读
MicroRNA(miRNA)是一类长度约为22nt的内源性非编码RNA,通过与靶基因的3’UTR进行绑定,在转录后调控过程中抑制靶基因的表达。大量的研究致力于探讨miRNA在疾病发生、发展过程中发挥的功能机制,特别强调它们在癌症中的作用。一般来说,miRNA通过结合靶基因来行使其调控作用,但往往会有其他调控因子(如Transcription Factor,TF和long non-coding RNA,lncRNA)参与协同或阻碍miRNA对其靶基因的调控,这使得调控机制变得复杂。目前已有研究表明,miRNA潜在地参与了多个调控关系,如miRNA结合靶基因,从而构建miRNA-mRNA调控网络;TF与miRNA共同绑定相同的靶基因,从而构建TFmiRNA-mRNA共调控网络;lncRNA和mRNA竞争性结合同一个miRNA,从而构建lncRNA-miRNA-mRNA竞争三元组调控网络。更重要的是,很多研究发现miRNA可能涉及几乎所有生物过程和路径,包括致癌作用。由于调控机制的复杂性加上不同癌症的特异性,miRNA介导的调控网络的构建与分析一直是一个具有挑战性的课题。因此,在本论文中,通过推导miRNA特异于上下文的调控角色来阐明其功能意义。根据研究背景和目的的不同,设计相应的计算方法来构建癌症特异性调控网络和发现重要的网络子结构,并对其进行相应的拓扑特征和功能特征分析。本文主要研究工作简介如下:(1)在共表达基因更可能具有相同调控机制和功能的前提下,设计了一种基于共表达相关性的miRNA调控模块识别算法:CoModule。该算法首先利用miRNA表达谱数据来构建miRNA共表达相似性网络,然后利用计算方法获取具有高度共表达相关性的miRNA簇。把CoModule应用在卵巢癌数据集上并与其他算法进行对比。结果显示,由CoModule算法识别出来的模块具有更紧密的调控连接,且呈现出更强的miRNA-mRNA负相关性表达系数。另外,多个模块中的miRNA显著富集于miRNA家族,同时miRNA靶基因展示出较为一致的功能特征。总体来说,由CoModule识别出的miRNA调控模块在拓扑结构和生物学意义两方面都具有较好的表现。(2)由于现有模块识别算法无法针对性发现具有预后特征意义的miRNA功能模块,提出一种基于先验临床信息的miRNA预后模块识别算法:ProModule。该算法首先利用肿瘤样本的先验临床信息来遴选出与预后相关的miRNA个体,然后在此基础上利用聚类方法系统地识别出miRNA介导的具有统计学预后意义的模块。将ProModule和对比方法应用到三种癌症数据集上进行性能测试。结果表明,由ProModule识别出的miRNA预后模块较个体miRNA展示出更强有力的预后价值。通过与其他方法的结果进行比较,由ProModule识别的miRNA模块呈现出更一致的miRNA-miRNA共表达相关性系数,且模块中miRNA靶基因显著富集于一些与癌症相关的生物功能过程和通路。(3)为了探讨TF和miRNA靶向共同靶基因的协同调控机制,提出了一种基于二分图的子网络挖掘算法:BiModule。该算法首先利用表达谱和绑定位点信息重构癌症特异性TF-miRNA共调控网络,并在此基础上,提出了一种基于二分图的模块化策略来进行共调控子网络的挖掘。把BiModule和对比方法应用在宫颈癌数据集上进行性能测试。结果显示,由BiModule识别出的共调控子网络呈现出更稠密的连接和更强有力的表达相关性。同时,相当一部分的TF-miRNA共调控子网络表现出统计学意义的预后相关性,其靶基因也展示出显著的生物功能富集。(4)针对当前计算识别lncRNA-miRNA-mRNA竞争三元组不够准确的问题,提出一种基于统计学的竞争三元组发现算法:lncTriplet。该算法首先设计了一种新的计算方案来模拟ceRNA调控过程,然后利用零假设检验来识别竞争三元组。把lncTriplet应用在乳腺癌症数据集上并进行测试。结果显示,由lncTriplet识别的竞争三元组符合ceRNA调控机制,其对应的lncRNA和mRNA展示出一致的共表达相关性和差异表达模式。