论文部分内容阅读
癌症是严重影响人类健康的重大疾病之一。随着基因芯片技术和第二代测序技术的发展,产生了大量的癌症组学数据。此类数据往往具有数量大、增速快、价值高及高维小样本的特点。矩阵分解作为一种有效的降维技术,在生物信息学中有着广泛的应用。常用的矩阵分解技术有主成分分析(Principal Component Analysis,PCA)、矢量量化(Vector Quantization,VQ)及非负矩阵分解(Nonnegative Matrix Factorization,NMF)等。随着研究的不断深入,现有模型无法满足组学数据挖掘日益增长的需求。因此,本论文基于癌症基因图谱(The Cancer Genome Atlas,TCGA)中的组学数据,通过对现有NMF相关方法进行改进,从而提高方法的性能,为癌症的预防、诊断和治疗工作提供一定的参考价值。具体研究分为以下几个部分:(1)提出多约束非负矩阵分解(Multi-constrained Non-negative Matrix Factorization,MCNMF)方法。针对原有方法易受不稳定分解及数据噪声的影响,MCNMF方法在提高方法性能的同时能够有效避免上述缺点。原始数据的结构信息用于指导矩阵分解,通过在矩阵分解过程中保留数据间的结构信息,使得系数矩阵可以与原始数据的实际分布很好地对齐。另外,应用基于NMF的L2,1-范数约束可以增强模型的鲁棒性,也可以在一定程度上降低噪声干扰。(2)提出有监督的超图正则化非负矩阵分解(Hyper-graph Regularized Discriminative Non-negative Matrix Factorization,HDNMF)方法。简单图正则的NMF不具有判别功能,且简单图正则无法准确反映数据之间的高阶几何信息结构。为解决上述问题,HDNMF方法通过构造超图而不是简单图来捕获数据间的高阶几何结构,标签信息的引入使该方法具有判别效果。(3)提出整合鲁棒图正则化非负矩阵分解(integrated Robust Graph Regularization Non-negative Matrix Factorization,iRGNMF)方法。随着“多视图组学数据”的产生,用于同种癌症的多视图组学数据的分析技术得到了快速发展。针对原有的NMF不能处理多视图组学数据的缺点,首先,将图正则引入NMF方法中捕获数据间的几何结构;其次,引入L2,1-范数来提高方法的鲁棒性;最后,将其扩展为整合模型来更好地处理多视图组学数据。(4)提出稀疏约束深半负矩阵分解(Sparsely Constrained Deep Semi-negative Matrix Factorization,SCDSMF)方法。针对大多数基于NMF的模型具有单层结构,对于复杂数据可能会表现出较差的效果,而深度学习及其精心设计的层次结构在学习数据功能方面显示出显着的优势。一方面,在整合的组学数据上应用了一个称为深半非负矩阵分解(Deep Semi-Non-negative Matrix Factorization,Deep Semi-NMF)方法;另一方面,将L1-范数惩罚应用于每层的基矩阵和系数矩阵。因此,使用Nesterov的加速梯度算法以逐步迭代的收敛速度来加快计算过程,然后讨论该方法的计算复杂度,以证明其效率。各项实验表明,本文中的方法比现有的同类方法比较更具优势,可以取得更好的聚类、分类效果及找到更多与癌症相关的关键基因。