论文部分内容阅读
肝细胞癌(Hepatocellular carcinoma, HCC)是世界范围内最常见的人类癌症之一。我国每年新发及死亡HCC病例约占全世界病例的一半以上。在我国,HCC患者中约80%是乙型肝炎病毒(Hepatitis B virus, HBV)携带者。尽管医疗水平不断提高,HBV相关HCC患者的5年生存率仍然很低。发现和鉴定肝癌的致病基因,研究其与肝癌发生和发展之间的关系,不仅有助于阐明肝癌形成的机制,而且对于肝癌新的预防、诊断、治疗措施的研发都具有极为重要的意义。长非编码RNA(Long non-coding RNA, lncRNA)是指长度超过200个核苷酸的非编码RNA。与其它的非编码RNA(如microRNA)相比,lncRNA具有更长的序列与更复杂的二级结构和三级结构。众多已有研究表明,lncRNA不仅在细胞周期、凋亡和分化等基本的细胞生物学过程中发挥调控功能,在癌症等疾病的发生发展过程中也发挥着重要作用。在癌症中,lncRNA的转录水平异常往往可以标志着疾病的进展程度,甚至可以用来预测个体的患病风险。本课题的目标就是要通过“组学”技术以及生物信息学分析方法,系统发现和鉴定与肝癌发生发展相关的lncRNAs,为将来lncRNAs在肝癌中的作用和分子机制研究,以及基于lncRNAs的应用研究奠定基础。为此,我们收集了40例HCC患者的癌组织及其配对的癌旁组织样本,采用Affymetrix Exon1.0ST芯片与Array Star Human12x135k Long Non-coding RNAArray两种芯片,分别对这40对HCC样本的编码基因(mRNA)与lncRNA的转录水平进行了高通量检测,然后通过“整合组学”分析方法,整合分析编码基因表达谱和lncRNA表达谱数据,期望以此发现与肝癌发生发展相关的lncRNAs。首先,我们采用RMA(Robust multi-array average)的方法对上述编码基因表达谱和lncRNA表达谱数据进行了预处理。通过对样本与表达谱数据的一系列质量控制,我们最终获得了包括76个样本、11,221个编码基因的表达谱数据与包括75个样本、23,726个lncRNA的表达谱数据。我们通过SVA(Surrogate variableanalysis)方法分析发现,在癌和癌旁组织间显著差异表达的编码基因共有1,212个,lncRNA共有362个。我们进一步又通过topGO、SPIA(Signaling pathwayimpact analysis)与GSEA(Gene set enrichment analysis)方法分别对编码基因的表达谱进行了GO分析、通路富集分析与基因集富集分析,分别显著富集了42个GO项、5条KEGG通路与231个MsigDB基因项。在这些得到富集的功能项中,急性炎症免疫反应、细胞周期与细胞代谢相关的基因项均有显著统计学意义。此外,我们发现GSEA的结果中包括了来自7项已发表HCC研究的20个基因项,并且其富集的趋势与文献报道一致,提示我们的表达谱数据是可靠的。随后,我们使用GSEA方法对编码基因表达谱与lncRNA表达谱数据进行了整合分析。对362个差异表达的lncRNA的功能富集分析显示,其中的141个lncRNA共富集到了364个基因项。我们利用这一结果构建了lncRNA的功能矩阵,又进一步通过双向聚类的方法最终找到了4个功能模块,共涉及13个lncRNA。在上述4个模块中,有3个模块与细胞周期功能显著相关,剩余一个模块则与细胞代谢功能显著相关。我们通过SPIA方法对上述4个模块进行了进一步的注释,发现在3个与细胞周期相关的模块中还显著富集P53通路。我们还采用GSCA(Gene set co-expression analysis)方法证明了4个模块中的基因在我们自己的表达谱数据、GSE22058和GSE3500这三个独立的HCC表达谱数据集中均具有差异共表达模式,因而证明了这4个模块中基因的表达模式具有稳定性。随后,我们下载了ENCODE计划中HepG2细胞系的5种组蛋白甲基化修饰类型的ChIP-Seq数据,用于注释上述4个模块中的13个lncRNA的转录状态。结果显示,在lncRNA-ASLNC18598的启动子区域存在H3K4me1与H3K4me2组蛋白修饰,在其转录区域存在H3K36me3组蛋白修饰,提示ASLNC18598是活跃转录的。随后我们根据密码子替换频率(Codon substitution frequency, CSF)算法自行开发了CSF++软件,用于lncRNA的蛋白编码能力的预测,结果显示ASLNC18598的编码能力较弱(CSF Score=2.30),提示其是一个真实的lncRNA。GSEA方法的功能预测结果显示,ASLNC18598参与了对细胞周期的调控。同时也与DNA损伤修复(RESPONSE_TO_DNA_DAMAGE_STIMULUS,NES=1.81,FDR=0.040)和TP53通路(TANG_SENESCENCE_TP53_TARGETS_DN,NES=1.80,FDR=0.080)显著相关。近来已有众多研究表明,很多lncRNA可通过表观遗传调控方式发挥作用。因此,为了在我们的数据中发现和鉴定与表观调控相关的lncRNA,我们又制定了一个监督式功能模块图谱的分析策略。经过系列筛选,我们发现了41个与表观遗传调控相关的候选lncRNA。通过检查这些lncRNA的启动子区域与转录区域的组蛋白甲基化修饰、蛋白编码能力以及在GSEA富集分析中的可重复性,我们最终确定了lncRNA-ASLNC18342是一个最优的候选者。在下载自ENCODE计划的ChIP-Seq数据中,我们发现在ASLNC18342的转录区域存在H3K36me3组蛋白修饰;编码能力的预测结果显示,ASLNC18342的编码能力较弱(CSFScore=2.43)。因此,我们可以确定ASLNC18342是一个真实的lncRNA。其功能模块图谱与GSEA分析的结果都表明,ASLNC18342可能参与细胞周期的调控。通过蛋白结合能力的预测,我们发现ASLNC18342可能与MLL(Mixed lineageleukemia)家族的蛋白相互结合,从而介导靶基因启动子区域的H3K4me3组蛋白修饰。本实验室后续功能研究已显示,通过RACE(Rapid amplification of cDNAends)实验,已经证实这两个lncRNA是真实存在的;通过细胞表型实验与小鼠动物模型实验,也已经证实了它们能显著影响细胞周期的进程、显著影响肝癌细胞系的成瘤能力。进一步的分子机制研究也表明,ASLNC18598可以与hnRNP-K蛋白相互结合,从而验证了其与P53相关的预测;ASLNC18342则可与MLL1蛋白相互结合,从而验证了其参与表观遗传调控的预测。综上所述,通过整合分析肝癌组织的lncRNA与编码基因表达谱数据,我们先后筛选出了ASLNC18598与ASLNC18342这两个与细胞周期调控相关的lncRNA,证明了“整合组学”分析不失为一种发现新的肝癌相关lncRNA的强有力的策略。