论文部分内容阅读
研究背景鉴定肿瘤驱动基因(cancer driver genes)一直都是肿瘤学研究的热点,目前已经有多种基于肿瘤基因组学的工具被开发,其中dJ/dS方法从不同角度鉴定了新的肿瘤驱动基因。dJ/dS仅考虑了基因外显子(exon)和内含子(intron)的剪接位点(junction site,J)突变情况,若J位点发生突变,则pre-mRNA剪接过程失败,进而无法产生正常的成熟mRNA,从而造成基因功能丧失(loss of function),最后诱导细胞癌变。基于这个思路,该方法借鉴了遗传学工具dN/dS的计算原理,用 Junction mutation(J)和 Synonymous mutation(S)观察值之比(obs_JS)除以期望值之比(exp_JS),即dJ/dS=obs_JS/exp_JS,若dJ/dS>1,则认为有正选择效应;若dJ/dS<1则认为有纯化选择作用;如果dJ/dS=1则认为无选择压力。我们认为肿瘤发生过程中驱动基因受到了正选择作用。相比其他方法,dJ/dS更好地控制了背景突变率(background mutation rate,BMR),提高了方法的灵敏度。但仍存在两个不足之处:一、dJ/dS在考虑J突变时只计算了发生在splice donor(GT)和splice acceptor(AG)四个位点上的突变,而有研究表明这四个位点临近的区域发生突变也会引起剪接失败,导致疾病发生,因此将剪接位点周围的区域纳入J的计算会更加准确;二、dJ/dS在计算突变谱(mutation spectrum)时仅考虑了 12种突变类型,但有文献报道紧邻突变位点的碱基N(ATCG)可能极大地影响突变,所以突变谱采用96种类型计算更科学。因此我们在本研究中对dJ/dS的上述两点不足进行改进,开发dJ/dS2.0版本,并结合TCGA(The Cancer Genome Atlas)33种实体瘤的数据对肿瘤驱动基因重新分析预测。驱动基因在肿瘤中的功能研究也是一项非常重要的课题。癌变过程十分复杂,癌基因和抑癌基因在癌变过程中起重要的调控作用,多种因素可以影响癌基因和抑癌基因的突变,有研究报道人种和性别是影响基因突变的重要因素,而且部分基因突变会使得肿瘤预后更差,我们将以肝癌为研究模型来探讨驱动基因在肝癌中的作用。肝癌是世界上第六位常见的恶性肿瘤,死亡率高居第三位,每年有超过70万新发病例,且呈逐年增加趋势。手术切除是目前早期肝癌最有效的治疗手段,但术后五年复发率超过50%。近年随着测序技术的快速发展,肝癌基因组学研究取得了很大进步,为筛选临床诊疗及预后的基因标志物提供了新的技术手段。本研究拟从两个方面开展:①改进dJ/dS方法并用于鉴定肿瘤驱动基因;②以肝癌为研究模型,结合dJ/dS2.0、dT/dS和MutSig2.0的预测结果,初步分析驱动基因在肝癌中的功能。研究目的1.改进dJ/dS算法,开发dJ/dS2.0版本,并将之用于dJ/dS2.0肿瘤驱动基因的预测;2.初步研究驱动基因在肝癌中的功能。研究方法(一)dJ/dS算法的改进1.dJ/dS2.所用数据:本次研究纳入TCGA的33种实体瘤的数据。2.dJ/dS2.0的计算方法a)计算突变谱:以不受选择压力影响的四倍简并位点上的突变计算每种肿瘤的突变谱,同时采用96种突变类型表示突变谱,即考虑突变位点前后的碱基,如 NCN>NTN,N 代表 ATCG;b)J突变的计算原则:在原dJ/dS方法J的基础上还纳入了紧邻剪接位点的外显子上3个碱基和内含子上6个碱基,共11个突变位点;c)S突变的计算原则:纳入每个基因上所有同义突变;d)计算期望JS比值(exp_JS):采用上一步得到的突变谱分别计算每个基因的J和S的期望值(expectation,exp),然后用J的期望值比上S的期望值,即exp_JS = exp_J/exp_S;e)计算实际观察JS比值(obs_JS):从TCGA外显子测序数据中分别统计J和S的观察值(observation,obs),然后用J的观察值比上S的观察值,即obs_JS=obs_J/obs_S;f)计算dJ/dS比值:用实际观察的JS比值除以期望的JS比值得到dJ/dS比值,即dJ/dS obs_J S/exp_J S;(二)驱动基因在肝癌中的功能研究1.肝癌数据来源:TCGA和ICGC;2.驱动基因和通路的鉴定:综合dJ/dS2.0,dT/dS和MutSig2.0三种方法在肝癌数据中的鉴定结果,并利用得到的驱动基因进行通路分析(pathway analysis);3.驱动基因的功能分析:结合肝癌临床资料,分析驱动基因和通路在人种和性别间的突变差异,以及对肝癌预后的影响。(三)统计学分析1.dJ/dS2.0统计分析a)p和FDR计算:使用二项分布检验计算出每个基因对应的p值,同时用Benjamini-Hochberg 方法控制 FDR(false discovery rate);当基因的dJ/dS>1且FDR小于0.05时,认为是驱动基因;b)GO功能分析:使用GOrilla进行GO功能聚类分析,FDR小于0.05认为有统计学意义。2.驱动基因功能的统计分析a)KEGG功能分析:利用DAVID运行KEGG功能分析,FDR<0.1认为有统计学意义;b)使用fisher确切概率法比较驱动基因及通路在人种和性别间的分布;p<0.05认为有统计学意义;c)生存分析:通过Kaplan-Meier生存曲线比较驱动基因对预后的影响,使用log-rank检验计算p值;用Cox比例风险回归模型进行多因素分析;p<0.05认为有统计学意义。研究结果(一)dJ/dS2.01.33种肿瘤的突变谱通过在剪接区域增加分析位点和拆分突变谱的方式来改进dJ/dS后,开发dJ/dS2.0版本,将之应用于TCGA33种肿瘤中可以得到更为精准的突变谱。a)高频突变类型C>T是大多肿瘤的主要突变类型,其中CpG>TpG的突变率最高,但在皮肤黑色素瘤中突变率最高的是CpC>CpT和TpC>TpT。b)肾癌亚型的突变特点肾嫌色细胞癌突变类型主要以CpG>TpG为主,肾透明细胞癌以CCG>CAG、CCG>CTG和GCG>GTG为主,而肾乳头状细胞癌在肾透明细胞癌突变类型的基础上,还包括了 CCA>CAA和CCC>CAC。2.驱动基因除了肾上腺皮质癌、胆管癌、FPPP、肾嫌色细胞癌、弥漫性大B细胞淋巴瘤、子宫癌肉瘤和睾丸生殖细胞瘤这7种肿瘤没有鉴定出结果,dJ/dS2.0在26种鉴定出驱动基因,值得注意的是子宫内膜癌出现多达344个基因,我们怀疑TCGA数据可能有异常或部分基因在子宫内膜癌中更容易发生剪接区域突变,造成dJ/dS2.0不敏感而导致过多假阳性,因此我们移除了子宫内膜癌的鉴定结果,只用余下25种肿瘤的结果进行后续的分析。a)25种肿瘤的驱动基因dJ/dS2.0在25种实体瘤中总共鉴定出643个非冗余的肿瘤驱动基因,除了73个被CGC注释为驱动基因外,另有570个(88.8%)是新预测出来的驱动基因;b)GO功能分析将570个驱动基因进行GO聚类分析,结果显示有很多基因聚集在与发展和维持多细胞性相关的 GO term 上(GO:0044243,multicellular organismal catabolic process,p=2.53E-12,FDR=1.52E-8)。(二)驱动基因在肝癌中的功能分析1.肝癌的驱动基因为了更全面地分析驱动基因的功能,我们结合了 TCGA和ICGC中肝癌的数据来增加样本量,在应用dJ/dS2.0的同时,也使用了分别由我们实验室课题组开发的dT/dS和TCGA开发的MutSig2.0方法,三种方法共鉴定出89个驱动基因,经KEGG pathway分析发现这89个基因富集于10条与病毒感染或肿瘤相关的信号通路上;2.肝癌驱动基因突变类型的特点对比发现,肝癌各驱动基因的突变类型构成比差异较大,在突变频率较高的CTNNB1、TP53和RB1基因中,非同义突变所占比超过95%,其中CTNNB1和TP53以错义突变为主,而插入缺失、错义突变、剪接区域突变及无义突变共存于RB1中;3.人种和性别影响驱动基因和通路突变的分布基因TP53和RB1及通路hsa05161和hsa05203在亚裔中更容易突变,男性中的CTNNB1、ALB、PIK3CA、BAP1基因和hsa05200通路发生率高于女性;4.生存分析经单因素筛选和多因素分析,基因KCNB2(p=0.025),KCNJ12(p=0.015),RB1(p=0.038)和 TP53(p=0.01)及乙肝感染通路 hsa05161(p=0.006)若发生突变则患者中位生存时间缩短,死亡风险比增加。结论第一章:dJ/dS2.01.改进dJ/dS算法,提高了准确性;2.由dJ/dS2.0鉴定的驱动基因参与多细胞性的发展和维持环节;第二章:驱动基因在肝癌中的功能分析1.肝癌患者的性别和人种会影响驱动基因突变的分布;2.驱动基因KCNB2、KCNJ12、RB1、TP53和乙肝感染通路hsa05161突变是肝癌预后的不良因素,可能是临床上潜在的基因标志物。