论文部分内容阅读
RNA结合蛋白(RNA-binding protein,RBP)对于细胞维持如剪接,聚腺苷酸化,RNA转运,翻译和转录本降解等一系列基本的细胞学功能至关重要。基于一项研究工作的估计,人类基因组中存在超过1500种不同的RBP,这些RBP通过结合不同的RNA靶标序列,进而行使其相应的生物学功能。许多RNA结合蛋白在结合其RNA靶标时存在相互作用或竞争的关系,因此,研究RNA结合蛋白的聚类组合方式和鉴定相应的RNA调控元件,对研究各种后转录调控机制至关重要。近几年来,紫外交联免疫沉淀结合高通量测序(High-throughput sequencing of RNA isolated by crosslinking immunoprecipitation,CLIP-seq)技术的出现,使得研究人员能够在不同哺乳动物细胞中鉴定转录组范围内的、具有高分辨率的RNA-RBP的结合位点。目前,这些RBP的结合位点已经被很好地整理和收录在诸如CLIPdb,POSTAR和STARbase等重要的数据库中,为了揭示重要的后转录调控机制,如今越来越多的CLIP-seq数据被产出,发展整合多套CLIP-seq数据的方法,并对RBP相互作用进行系统评估,则显得愈发关键。我们收集了327套来自于HEK293/HEK293T、HepG2、K562三种细胞系,PAR-CLIP,HITS-CLIP和eCLIP三种不同技术方法的CLIP-seq数据。由于CLIPseq数据的异质性现象严重,我们建立了一套统一的重叠过滤策略,并成功鉴定得到了约45万个可靠的RBP结合峰。由于传统的层次聚类并不能够很好的解决RBP之间的关系,我们通过利用非负矩阵分解这种软聚类的方法,鉴定得到了一系列具有已知物理相互作用和免疫共沉淀实验支持的RBP聚类组合,并且定义了与这些聚类组合相关的RBP结合位点。利用这些结合位点,我们不但可以富集出已知的或新型的RNA motif,同时也证明了它们潜在的与RNA降解、RNA剪切等生物学功能密切相关,可能是真实存在的调控元件。我们的数据整合分析方法,可以广泛的应用到其他数据集上,并且可以克服由样品和实验技术异质性带来的影响。为了方便研究者对这些RBP聚类组合与结合位点的验证,我们建立了一个网页版的平台,以便分享我们鉴定的结果和原始代码。