论文部分内容阅读
背景:肿瘤一直是威胁人类生命健康的致命疾病之一。千百年来,人类一直在探索肿瘤的发病机制,寻找预防和治疗肿瘤的有效方法。测序技术和各种生物实验技术的长足进步,为肿瘤的基础研究和临床治疗开启了新的方向。大量测序数据的出现,助力肿瘤关键基因发现、肿瘤分子分型、肿瘤免疫治疗和临床预后等研究。然而,从大量测序数据的积累到肿瘤精准治疗之间还有很长的路要走。肿瘤精准治疗的前提是肿瘤患者精准定位,随着对测序数据的深入挖掘,肿瘤分型开始从传统的组织分型向更精准的分子分型过渡。同时,研究人员对肿瘤发病机制、关键驱动基因和肿瘤免疫微环境等也有了更加深入的认识,进而提出了一系列新的肿瘤治疗方案,其中以PD-1、PD-L1和CTLA-4为代表的肿瘤免疫抑制剂疗法取得了巨大突破,重燃了用肿瘤免疫疗法治愈肿瘤的希望。当然,肿瘤免疫疗法治疗过程也遇到一些问题,如:受众有限(以PD-1为代表的肿瘤免疫抑制剂疗法只对35%左右患者有效)、容易引起免疫风暴等。更多更好的肿瘤免疫治疗方法有待开发,促使更多肿瘤患者受益。在此过程中,肿瘤新抗原疫苗因其特异性强、副作用小等优点,逐渐进入我们的视野。问题与挑战:大量肿瘤测序数据的积累,为精准的分子分型提供了可能,但是,基于不同的分类算法会得到差异的分子分型结果,分型结果的差异一定程度上影响了肿瘤分子分型在临床的应用和推广。目前,仍欠缺方便快捷的肿瘤共识分子分型的计算工具。另外,对于不同肿瘤或肿瘤亚型,关键基因和治疗靶点研究不足,阻碍了肿瘤个性化疗法的临床进程。在肿瘤治疗方面,新抗原疫苗疗法以其独有的优势引起广泛关注,目前,新抗原候选肽段主要通过以测序为基础的算法进行预测,一系列的分析算法和预测管线已经被开发,但是流程质控仍缺乏公认的规范和标准,样本跨平台交叉评估困难;候选新抗原预测精度也不足,很多预测的候选新抗原肽段无法激发T细胞免疫反应,极大的阻碍了肿瘤个性化治疗和肿瘤新抗原疫苗的临床应用进程。研究目的、内容、方法、结果:基于肿瘤个性化疗法中存在的问题,本研究希望以大规模肿瘤测序数据和高通量基因筛选数据等为基础,以各类生物信息学算法为手段,以个性化的肿瘤新抗原疫苗疗法这一生物学问题为导向,开展以下几个方面的研究工作:一、肿瘤精准分型和关键表型基因探索方面:基于肿瘤多组学数据的共识聚类算法开发和高通量基因筛选数据平台的建立。我们利用收集的肿瘤多组学数据集和对各类聚类算法的整合,实现肿瘤共识分子亚型的计算,同时计算共识分子亚型的相关分子标记物,建立COMSUC共识分子亚型计算平台;之后,收集了肿瘤等相关的全基因筛选数据集,建立CRISP-view多表型功能基因筛选数据库,以便对计算得到的肿瘤亚型关键基因进行筛选和验证。二、新抗原预测平台方面:建立以WES-seq和RNA-seq分析为基础的新抗原预测管线平台,并在各类样本(测序平台、样品类型、生物学重复)中进行详细的质控标准的评估。该工作建立适用于多平台各类样本的新抗原预测流程,探索预测算法的质控标准,为新抗原预测流程的标准制定提供参考。三、新抗原数据库建设方面:肿瘤抗原及其相关肽段数据库平台的建立。收集和整理尽可能多的肿瘤抗原肽段及其相关的免疫原性肽段信息等,建立用户友好的检索机制,搭建肿瘤抗原数据库平台(CAD)。同时,整合不同的分析工具,建立一个综合的在线分析系统,方便各类用户进行在线抗原探索。同时,系统阐释不同数据集的算法适用性,用于指导算法模型的开发。四、新抗原相关肽段免疫原性预测算法方面:本工作主要致力于研究MHC结合肽段的免疫原性。鉴于此,本研究收集并整理了IEDB来源的T细胞表位数据并通过算法生成肿瘤新抗原模拟数据集,接着计算肽段的不同理化特征,在四种的机器学习模型中进行肽段免疫原性的预测,目前预测模型的最佳AUC值约为0.72左右,相较于IEDB中免疫原性预测工具的0.65,有一定程度上的提升。工作创新性和意义:基于高通量和大数据技术助力生物问题探索是生命科学研究的重要课题。本文基于肿瘤新抗原疫苗开发这一生物学问题,建立和开发了一系列数据库、预测管线和相关算法,为精准的肿瘤新抗原疫苗的预测开发提供了助力。针对肿瘤分子分型差异和关键靶点筛选的问题,我们开发了肿瘤共识分子亚型计算框架,建立了使用多组学和多种聚类方法计算共识分子分型的web服务器COMSUC,COMSUC平台的意义在于方便快捷的实现肿瘤共识分子亚型的计算和可视化,助力肿瘤共识分子分型的计算和推广;在关键功能基因和靶点筛选方面,我们建立了CRISP-view多表型全基因筛选数据库,包含肿瘤和肿瘤免疫等多种表型筛选数据集。其创新点在于,手动注释并通过统一的MAGe CK-VISPR管线对所有数据集进行同一的数据预处理和质控,便于所有表型数据集之间进行横向比较,为功能基因跨表型的深度信息挖掘提供了可能;之后建立了基于snakemake流程管理工具的肿瘤新抗原预测管线并对不同平台来源数据进行严格质控评估,其意义在于尝试探讨肿瘤新抗原预测管线的质控标准,同时助力多平台交叉队列分析,促进跨组织和网络的新抗原预测和肿瘤疫苗的开发;为了进行新抗原相关算法开发、优化和在线探索,建立了肿瘤抗原肽数据库CAD,其创新点在于嵌入或自建多种分析工具,助力肿瘤抗原肽段便捷的在线探索,同时面向算法,为不同预测算法的开发、优化和验证提供强大的信息资源;之后,尝试建立肿瘤抗原肽段免疫原性预测模型,为基于肽段特征属性的免疫原性预测工作提供一定参考价值。