联合约束非负矩阵分解方法研究及在组学数据中的应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:donglu1116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是严重影响人类健康的重大疾病之一。随着基因芯片技术和第二代测序技术的发展,产生了大量的癌症组学数据。此类数据往往具有数量大、增速快、价值高及高维小样本的特点。矩阵分解作为一种有效的降维技术,在生物信息学中有着广泛的应用。常用的矩阵分解技术有主成分分析(Principal Component Analysis,PCA)、矢量量化(Vector Quantization,VQ)及非负矩阵分解(Nonnegative Matrix Factorization,NMF)等。随着研究的不断深入,现有模型无法满足组学数据挖掘日益增长的需求。因此,本论文基于癌症基因图谱(The Cancer Genome Atlas,TCGA)中的组学数据,通过对现有NMF相关方法进行改进,从而提高方法的性能,为癌症的预防、诊断和治疗工作提供一定的参考价值。具体研究分为以下几个部分:(1)提出多约束非负矩阵分解(Multi-constrained Non-negative Matrix Factorization,MCNMF)方法。针对原有方法易受不稳定分解及数据噪声的影响,MCNMF方法在提高方法性能的同时能够有效避免上述缺点。原始数据的结构信息用于指导矩阵分解,通过在矩阵分解过程中保留数据间的结构信息,使得系数矩阵可以与原始数据的实际分布很好地对齐。另外,应用基于NMF的L2,1-范数约束可以增强模型的鲁棒性,也可以在一定程度上降低噪声干扰。(2)提出有监督的超图正则化非负矩阵分解(Hyper-graph Regularized Discriminative Non-negative Matrix Factorization,HDNMF)方法。简单图正则的NMF不具有判别功能,且简单图正则无法准确反映数据之间的高阶几何信息结构。为解决上述问题,HDNMF方法通过构造超图而不是简单图来捕获数据间的高阶几何结构,标签信息的引入使该方法具有判别效果。(3)提出整合鲁棒图正则化非负矩阵分解(integrated Robust Graph Regularization Non-negative Matrix Factorization,iRGNMF)方法。随着“多视图组学数据”的产生,用于同种癌症的多视图组学数据的分析技术得到了快速发展。针对原有的NMF不能处理多视图组学数据的缺点,首先,将图正则引入NMF方法中捕获数据间的几何结构;其次,引入L2,1-范数来提高方法的鲁棒性;最后,将其扩展为整合模型来更好地处理多视图组学数据。(4)提出稀疏约束深半负矩阵分解(Sparsely Constrained Deep Semi-negative Matrix Factorization,SCDSMF)方法。针对大多数基于NMF的模型具有单层结构,对于复杂数据可能会表现出较差的效果,而深度学习及其精心设计的层次结构在学习数据功能方面显示出显着的优势。一方面,在整合的组学数据上应用了一个称为深半非负矩阵分解(Deep Semi-Non-negative Matrix Factorization,Deep Semi-NMF)方法;另一方面,将L1-范数惩罚应用于每层的基矩阵和系数矩阵。因此,使用Nesterov的加速梯度算法以逐步迭代的收敛速度来加快计算过程,然后讨论该方法的计算复杂度,以证明其效率。各项实验表明,本文中的方法比现有的同类方法比较更具优势,可以取得更好的聚类、分类效果及找到更多与癌症相关的关键基因。
其他文献
随着悬索桥跨径的不断增大,吊索长度越来越长。悬索桥吊索频率低、阻尼小、质量轻,极易在风荷载、车辆荷载等作用下发生大幅振动,这将缩短吊索的疲劳寿命,从而对整座桥梁的安
随着科技不断进步,科研文献迅猛增长,新的研究方向不断涌现,如何有效对科研文献进行分类、管理、分析对科研人员和科技的发展都具有重要意义。传统的科研文献研究主要集中于
锥形束CT(Cone-beam CT,CBCT)系统,被广泛应用于工业和临床成像等许多方面。一般来说,CBCT系统的重建算法对成像的几何结构有着严格的要求,我们称之为理想的几何结构,但是在
中国汉字文化是中国文明得以延续的关键因素,与人们的生活息息相关,文字作为人们世世代代交流记录的工具,承担传播思想的媒介作用,并对推动国家文化传承与发展有着至关重要的影响。在汉字发展的历史长河中,印刷字体尤为重要,雕版印刷术的发明,促进了中国人阅读方式的改变。唐代时出现的印刷字体,直至宋代出现的仿宋体,经历了漫长的历史发展阶段,最终到明代宋体字正式发展成熟。宋体字的出现对汉字字体发展具有重大的历史意
玻璃围护结构在建筑中扮演着一个举足轻重的角色,但其透光性强、传热量大造成建筑能耗高,是目前发展新型玻璃围护结构急需解决的问题之一。通过在玻璃围护结构中添加石蜡类相
在科技飞速发展的今天,工业生产越来越依赖工业机器人的技术,在越来越多的行业机器人正在不断取代人工,但是离完全脱离人工实现百分之百的自动化生产还有很长的一段路要走,下
剪力墙结构体系已经得到了广泛的采用。为了满足使用功能的要求,一般情况下需要在剪力墙的墙体上留出洞口,构成双肢墙或联肢墙。墙肢之间以连梁连接,这样一方面调整了剪力墙
本文通过以领导者-跟随者作为框架建立数学模型,以图论和矩阵理论等理论知识作为基础工具,分析了基于等价划分和自同构的结构下多智能体系统的可控性问题。主要研究的内容如
计算水平的飞速发展使得人们可以通过模拟计算的方法获取所需材料的性质参数,用于材料研发和改性。基于密度泛函理论(density functional theory,DFT)的第一性原理(first-pri
miRNA作为一类辅助肿瘤诊断的生物标志物,开发对其高灵敏性和选择性的检测方法对于相关疾病的诊断至关重要。本文工作中,我们结合了具有特殊酶切活性的双链特异性核酸酶及纳