论文部分内容阅读
RNA分子可以呈现出大量复杂的结构,其与蛋白质的结合进一步促成了更加复杂的三维结构复合体。准确探测RNA的二级结构及其与蛋白质之间的相互作用可以帮助我们深入了解RNA在基因表达、可变剪切、翻译效率以及降解速率等方面的调控机制;RNA分子的异常调控可能会直接或间接地改变细胞命运甚至导致疾病的发生,因此探究RNA在癌症发生发展中的作用对于临床诊断和治疗都具有重要意义。随着RNA结构重要性的揭示,能够预测碱基配对关系的各种RNA二级结构预测软件被陆续开发出来,然而其准确度通常很低。基于化学小分子修饰或酶切方法的高通量实验技术可以探测细胞内RNA真实的单双链状态,但是具体的碱基配对关系却无从得知。鉴于此,我们开发了RME算法。该算法针对不同的实验类型分别构建统计模型以拟合其数据分布,然后通过贝叶斯后验概率模型来推测每个碱基与其他各碱基的配对概率。RME算法不仅可以实现不同种类的高通量测序数据之间的横向比较,其更为重要的意义是从实验数据中提取可靠的碱基配对概率信息来辅助计算机预测从而获得高准确度的RNA二级结构。RNA结合蛋白(RBP)几乎决定了细胞中所有RNA分子的命运,RBP之间也会通过协同或拮抗作用形成复杂的转录后调控网络,越来越多的组学实验的发展使该网络的探究成为可能。为此,我们收集了各类CLIP-seq数据,利用非负矩阵分解的方法对于不同RBP在RNA上的结合位点进行模糊聚类分析,进而得到功能上具有协同调控作用的各类RBP群组,该方法有助于更好地解释RNA上的调控元件所负责的生物学功能。随着体液中各类非细胞游离RNA(ex RNA)的发现,ex RNA作为癌症诊断及预后标志物的探究越来越多。为了更好地提取ex RNA稀疏的碎片化数据所蕴含的生物学信息,我们定义了新的结构域(domain)特征并通过机器学习的算法寻找可靠的癌症诊断及分型的RNA标志物。综上,本论文的研究既包括了基础机制研究,也涉及了癌症临床应用:即RNA二级结构预测算法的优化、RBP调控网络的搭建以及液体活检中可靠RNA分子标志物的鉴定这三部分内容。