论文部分内容阅读
癌症是威胁人类生命安全的主要疾病之一,关于癌症的研究至关重要。随着高通量测序技术的诞生和发展,产生了海量的多组学生物分子数据,给癌症机理和癌症治疗的研究带来了机遇。一系列机器学习、计算方法得以提出,有效利用了这些数据的信息。在此过程中,癌症亚型发现成为肿瘤学乃至生物信息学的研究热点之一。将癌症病人划分为不同的亚型,可以为精准医疗、个性化医疗提供依据、指导,从而改善治疗效果;也可以为癌症机理分析、药物靶标研发提供辅助。因此,亟需有效的方法,能够充分利用和整合多组学生物分子数据,识别出与临床密切相关的癌症亚型。多组学生物分子数据属于高维度小样本数据,且噪声较大,不同类型的组学数据之间存在着互补信息,也存在着互斥信息。如何设计出有效的基于多组学数据的癌症亚型发现方法来挖掘出这些数据中存在的生物信息,对癌症的研究以及治疗具有重要的理论和现实意义。本文中,我们的研究工作基于随机游走模型,利用它优化了体细胞突变数据的使用以及改善了集成聚类模型的信息集成方式。主要工作总结如下:第一,提出了网络传播模型协助的相似网络融合方法,将突变基因的影响通过基因相互作用网络传播出去,所得到的数据“平滑”且包含基因网络的信息;然后对于每种数据类型构建样本相似网络,网络中样本的相似度不再局限于单基因,而是基于基于网络。最后,采用非线性迭代方法,建立了包含不同数据类型信息的融合样本相似网络。针对该融合网络,可以通过运用聚类算法进行癌症亚型发现。第二,提出了基于随机游走的集成聚类方法。我们首先通过随机游走和缩放指数相似核函数得到了一个改进的簇间相似度。然后用它来填充样本和簇之间的关联矩阵,并建模了一个样本-簇的二分图。针对这个二分图使用谱聚类算法来识别癌症亚型。实验结果表明我们所提出的两种方法比现有的方法具有优势。对癌症案例的研究表明我们的方法发掘出的亚型具有临床生物学意义(药物反应、预后、年龄分布差异)。