论文部分内容阅读
到目前为止,只有部分癌症患者能从癌症治疗中获益。药物抵抗仍然是当前癌症研究面临的一个主要且具有挑战性的问题。快速积累的患者来源的癌症药物响应临床转录组数据为探索癌症药物抵抗背后的分子决定因素带来了机遇,但同时也对数据管理、整合和重用提出了挑战。本文开发了首个癌症用药响应临床转录组数据库(CTR-DB,http://ctrdb.ncpsb.org.cn/)。CTR-DB是首个为基础和临床研究人员访问、整合和重利用癌症用药响应临床转录组数据而建立的数据库。在数据方面(第二章),遵照严格的纳入标准,目前CTR-DB手工收集了来自于GEO,Array Express和TCGA的83个具有用药响应信息的病人来源的基线转录组源数据集。所有源数据集均采用统一的数据处理流程进行了重处理(RNA-seq数据以FASTQ文件为起点,Microarray数据以CEL文件为起点);样本临床元信息(包括癌症亚型、药物、药物响应状态及其注释、数据产出平台等)均通过手工挖掘获得,并进行了术语标准化。这些源数据集被进一步分成626个“CTR-DB数据集”,每个CTR-DB数据集由使用相同治疗方案且具有相同癌症亚型(最细颗粒度)的病人样本所组成的。共涉及275个治疗方案、123个药物、28个癌症组织类型和5139个样本。在分析功能方面(第三章),为了方便数据整合和重利用,除了基本的浏览、检索和下载,CTR-DB支持多种数据分析功能/工作流:(1)单CTR-DB数据集探索。主要包括(1)非响应/响应组差异基因表达分析、基因受试者工作特征(Receiver Operator Characteristic,ROC)曲线分析、功能富集分析,旨在帮助理解药物抵抗机制,发现候选的药物响应预测标志物;(2)搜索能够逆转药物A抵抗信号的药物B,旨在发现能够克服药物A抵抗的候选联合药物B;(3)肿瘤微环境(Tumor Microenvironment,TME)分析,旨在探索与药物抵抗相关的肿瘤微环境因素。(2)多数据集联合分析。用户可以选择和联合多个CTR-DB数据集并根据需要自己指定响应/非响应分组。通过此功能,典型地,用户可以联合一类药物(比如PD1/PD-L1抑制剂)或一个更高颗粒度的癌症亚型的数据集。被支持的数据分析功能同上述单一数据集。(3)多数据集比较。实现用户选择的多个CTR-DB数据集的分析结果的比较以及它们的荟萃分析,旨在探索不同数据集抵抗机制的异同,甚至发现可能的“泛数据集”共享的抵抗机制和预测标志物。(4)药物响应预测标志物验证。药物响应预测标志物能够预测病人对药物的响应,对癌症精准治疗至关重要。对于某个药物治疗某个癌种的候选标志物,用户可以使用相应的CTR-DB病人群体的临床转录组数据验证其基因表达水平区分响应/不响应病人的能力;或者对于感兴趣的基因,用户可以查看该基因表达与各个药物抵抗(即具有各种癌症类型和治疗方案的CTR-DB数据集)之间的相关性,可以帮助确定该基因的功能重要性。在第四章中,本文以CTR-DB中接受PD1/PD-L1治疗的病人数据集作为例子,展示以上所有分析功能/工作流的使用和价值。对数据集CTR_RNAseq_197探索发现低CD8+T细胞浸润导致干扰素γ(Interferon-γ,IFN-γ)低表达,进而下调INF-γ-JAK-STAT通路,该通路级联诱导使PD-L1低表达,这可能是抗PD1/PD-L1治疗发生药物抵抗的机制,而这一结论和前人研究结果一致。同时找到了抗PD1/PD-L1治疗的潜在联用药物组蛋白去乙酰化酶抑制剂(Histone Deacetylase Inhibitor,HDACI),而该结论也在前人研究中得到证实。上述分析结果在多个数据集联合分析中得到了进一步验证。而比较分析结果表明CTR_RNAseq_179中不响应患者的免疫细胞浸润程度略高,JAK-STAT通路上调,PD-L1表达上调,这暗示与CTR_RNAseq_197有明显不同的药物抵抗机制,显示药物抵抗机制具有高度的异质性和复杂性。通过标志物验证功能我们发现PD-L1只在CTR_RNAseq_197中能有效预测药物响应,暗示PD-L1表达的预测精度是不够的,需要更有效的联合标志物来预测PD-1/PD-L1抑制剂的药物响应。该使用案例显示了CTR-DB在揭示药物抵抗机制、发现增敏药物、验证生物标志物和探索药物抵抗机制异质性方面的作用。最后,本文第五章利用CTR-DB中76个样本数符合要求的数据集从泛癌层面探索药物抵抗机制,探索药物靶标基因表达水平与药物响应之间的关联、探索肿瘤干性与药物响应的关联以及肿瘤免疫微环境因素与药物响应的关联。结果表明(1)药物抵抗信号的高度异质暗示抵抗机制高度异质;(2)药物靶标的基因表达水平并不能很好的预测药物响应,药物靶标高表达也不一定意味着发生药物响应;(3)肿瘤干性也不能很好的预测药物响应;(4)由于抵抗机制的高度异质性,没有一个泛癌的能够预测药物响应的TME指标,即使是仅仅对于免疫治疗而言。总之,本文建立的癌症用药响应临床转录组数据资源和分析平台CTR-DB为基础和临床研究者提供了一个接入、整合和重利用癌症治疗响应临床转录组数据的接口,助力癌症药物抵抗机制揭示、联合药物发现以及抵抗机制异质性探索,尤其是为利用病人转录组数据发现和验证药物响应预测标志物提供了重要资源。