论文部分内容阅读
高通量测序技术的快速发展使得生物医学大数据呈指数级产生,这为数据驱动的癌症预后标志物识别和预后模型研究奠定了坚实基础,儿童肿瘤的预后研究也随之深入发展。神经母细胞瘤(Neuroblastoma,NB)是0-14岁儿童发病率排名第3位的恶性肿瘤,高危组患者尽管采用多模式强化治疗仍会复发、进展甚至死亡,进展期患者长期总生存率不超过50%,而幸存者也往往终生伴随着慢性疾病的困扰。由于NB具有发病隐匿、恶性程度及异质性高、放化疗相对敏感等儿童肿瘤的共性,并存在自发性消退现象的特殊性,本文将NB作为儿童肿瘤数据挖掘研究的代表。本研究的主要目的是通过计算方法构建基于转录组数据的预后模型,以更好地对患者进行分层诊疗并辅助临床治疗决策,或试图从中寻找药物治疗靶点进行生物学验证以开发新的治疗方法,这也是研究者们关注的重点和领域内的难点。近年来,机器学习算法在NB预后研究上有较多的探索和应用,也取得了一定进展,但在新靶点发现、分层诊疗改进以及治疗新方法开发等方面的研究仍然有限。大量研究表明,影响癌症预后的因素多元且复杂,其中肿瘤微环境、机体免疫及非编码RNA等因素不仅能够影响癌症发生发展、转移及治疗反应等,对癌症预后也具有重要意义。然而,在儿童肿瘤中目前尚无研究系统地描述肿瘤微环境、免疫相关基因及免疫相关lnc RNA对预后的影响以及它们在儿童肿瘤发生发展过程中发挥的作用。基于上述问题,本文以NB的转录组数据为研究对象,以数据挖掘技术和分子生物学实验方法为研究手段,围绕NB关键基因预后模型筛选、免疫相关预后模型构建、肿瘤微环境描述及关键基因的生物学验证等重要问题进行了相关研究,主要包括:1.构建神经母细胞瘤关键基因风险分数预后模型针对高危NB患儿预后不良、缺乏有效治疗靶点,且无法从现有分层诊疗方法中获益等问题,本研究提出了关键基因预后模型。通过挖掘关键候选基因去除冗余基因,并为NB提供了多个潜在治疗靶点。应用生存分析联合随机森林算法构建了仅包含四个基因的风险分数预后模型。在此过程中,整合了生存时间、类别标签等特征,从特征基因个数、分类器和模型参数设定等方面对NB预后问题进行探讨。实验结果表明,关键基因预后模型有较好的区分度和校准度,并在多个独立数据集中均能够较好地区分生存不同的患者,临床亚组分析中也得到了一致的结果。本研究还应用cytohubba和MCODE方法,鉴别出关键基因预后模型中表现最优基因--ERCC6L的共表达基因,揭示了该基因与多个基因共同作用参与NB的发生发展。另外,对比其它其它特征选择算法构建的预后模型,本文提出的模型在特征个数相对少的前提下具有不弱于其它模型的表现。2.提出神经母细胞瘤的免疫相关预后模型免疫相关基因及免疫相关lnc RNA影响着癌症的发生发展、治疗反应及预后。针对免疫相关基因及lnc RNA在NB中的作用及其对NB患者预后的影响尚不明确的问题,本研究基于机器学习算法提出了免疫相关预后模型。通过Cox回归分析筛选生存相关免疫基因,纳入随机森林模型,建立了包含5个免疫相关基因的预后模型(risk score five genes,RS5G);通过基因共表达分析及LASSO(Lease Absolute Shrinkage and Selection Operator)算法,建立了包含10个免疫相关lnc RNA的预后模型(risk score Lnc RNAs,RSLnc),在多个独立数据集中证实其表现优良。最后,在2个高危NB数据集中进行性能比对实验,结果表明,本文提出的3个预后模型表现优于其它预后模型,可以作为独立预后风险因素。3.构建基于量化肿瘤微环境的神经母细胞瘤细胞预后模型研究表明,肿瘤微环境(tumor microenvironment,TME)影响着NB的恶性生物学行为,靶向TME中的细胞成分可能为NB治疗提供一种新选择。针对儿童肿瘤肿瘤微环境研究不全面的问题,本章节基于转录组数据,对NB的TME中的细胞成分进行量化,并从细胞层面构建了预后模型。以RNA-seq和基因芯片两种类型数据为研究对象,应用x Cell算法映射出NB肿瘤微环境中64种细胞类型的x Cell分数,量化NB的TME中的各种细胞比例,详尽展示了该病TME中的细胞组成。随后,考虑到细胞丰度,选择其中10种细胞类型纳入随机森林算法,构建了NB中新的细胞预后模型p CRS(prognostic cell risk score)。实验结果表明,该模型在外部数据集中仍可以作为总生存和无事件生存的独立预后风险因素,尤其在高危组患者中,p CRS是唯一的独立预后风险因素,其作为预后标志物性能优于MYCN扩增。在临床亚组中,该模型也能够很好的区分生存不同的患者。4.关键基因的生物学功能验证针对数据挖掘方法筛选出的基因是否具有生物学意义的问题,本研究设计了分子生物学实验验证了其中一个关键基因HMGB3对NB肿瘤细胞增殖、迁移、浸润等的影响。首先通过建立基因功能缺失模型,在两种细胞系中证实了沉默HMGB3显著抑制NB细胞的生长、迁移和浸润能力;动物实验也表明,敲降HMGB3后肿瘤生长显著受到抑制。然后,通过基因共表达分析,找到可能与该基因相互作用的基因,在沉默HMGB3的细胞系中检测共表达基因的变化,筛选出TPX2,进一步通过基因功能获得模型,验证HMGB3可能是通过介导TPX2发挥促肿瘤作用。最后,通过生存分析显示上述两个基因对NB患者生存预测的叠加作用。综上,本文通过整合神经母细胞瘤的基因表达数据和计算方法构建NB预后模型,诠释了关键基因、机体免疫及肿瘤微环境对NB预后的重要意义,并通过分子生物学实验证实其中一个关键基因HMGB3对NB的促肿瘤作用。本文从分子水平和细胞水平构建预后模型,是对现有风险分层诊疗系统的补充,能够为NB的治疗决策提供一定辅助,并为其它类型儿童肿瘤的研究提供思路和借鉴。