基于联合隐变量模型的癌症分子亚型分析

来源 :南开大学 | 被引量 : 0次 | 上传用户:louisvu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症不是单一类型的疾病,而是存在分子亚型的。其分子的复杂性体现在mRNA、DNA、蛋白质等多层次遗传物质中。仅分析其中一种数据并不能够完整揭示分子亚型的独有特点。   综合分析所有基因组特征,有助于发现其中蕴含的复杂的变异模式。由于癌症亚型往往不为人所知,需要通过聚类技术探索数据的潜在结构。不同类型基因组数据分别聚类的结果可能存在差异。如何获得一致的聚类结果是本文需要解决的问题。   本文使用联合隐变量模型来解决这个问题。联合隐变量模型也称iCluster算法,2009年提出,是一个易于拓展的概率框架,能够综合分析多类型的数据。并产生跨类型一致的结果。本文详细介绍了联合隐变量模型的原理和框架。在包含四个细胞系样本的原发性乳腺癌数据集上证明了联合隐变量模型的有效性。联合隐变量模型使用L1稀疏约束对基因组特征的系数矩阵进行压缩,但L1稀疏约束没有考虑变量的相关性,没有考虑拷贝数变异的分段连续性。本文基于L1稀疏约束的不足提出使用ElasticNet稀疏约束和Fused Lasso稀疏约束解决这些问题,并在乳腺癌数据集上证明了其具有好于L1稀疏约束的聚类效果。   最后本文改进的联合隐变量模型算法分析了原发性乳腺癌和胶质母细胞瘤分子层面的差异,并将原发性乳腺癌分为3类分子亚型,将胶质母细胞瘤样本划分为5类分子亚型。3类乳腺癌分子亚型中发现了公认的ERBB2+分子亚型。胶质母细胞瘤的5类分子亚型与癌症基因组图集(TCGA)计划公布的4类分子亚型有较强的对应关系,但5类分子亚型在生存几率、最初发病年龄和对药物的敏感性方面具有更显著的特点。  
其他文献
网络图中的motif是一种连通的导出子图,并且满足在原图中出现的次数比它在随机图中出现的次数多很多。这种性质可以解释成这种子图在原图中扮演了比在任意的随机图中更加重要
随着多媒体技术的迅速发展以及互联网的普及,数字图像广泛应用于日常生活和工作中,与此同时图像编辑处理工具Photoshop、ACDSee等的迅速发展,使得编辑图像内容变得越来越简单。
在教学实验中直接使用CoreABC指令集系统进行代码编程,对于初步接触数字电路的学生而言是有一定难度的,从而造成难以完成实验目标以及理解CoreABC微控制系统。如果用标准C语
作为组合优化领域与计算机科学中的一个重要分支,装箱问题越来越受到人们的关注与重视。随着科技的发展,组合优化问题在生活中的应用越来频繁,装箱问题的研究得到了飞速的发展,并
随着工作流技术广泛应用于生物信息学实验,其整合分析工具完成复杂生物计算的能力越来越受到人们关注。生物信息工作流通过一种模块化的流程表达方式形象地描述计算分析的过程
近年来,科学技术迅猛发展,信息技术已经渗入社会、经济、生活等各个领域,但信息技术是一把双刃剑,一方面它的便捷性和全球性对经济的发展起到有力的推动作用,另一方面,其自身的缺陷
背包问题在众多工业领域中都能遇到,诸如交通、物流、切割及包装、电信、可靠性、广告、投资、预算分配和生产管理。在这些应用中,背包问题一般作为独立的问题或复杂的子问题出
在软件管理系统中,数据大部分存储在传统的关系型数据库中,但当业务复杂度的提高和数据量的不断增加,简单的通过单一节点的数据库处理方式已经无法满足用户对于希望快速获取反馈
集成学习,是先将样本提供给多个学习模型,再采取投票或是级联等方法把这些学习模型的输出集成起来的学习模型。集成学习采用合成多个学习模型的输出,能够显著的提高学习模型的泛
随着Web2.0的出现和高速发展,互联网中用户所产生的信息容量和用户数量都呈现爆炸性增长的趋势,网络平台已经成为人们日常生活中不可缺少的信息获取、交流和传播的重要媒体。