基于基因表达数据的癌症亚型发现双聚类方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:renbai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量生物技术和数据采集技术的发展,产生了大量的生物数据,如基因表达数据、基因互作网等。基因表达数据分析在癌症亚型分类、基因治疗、药物研发等领域有着广泛的应用。基于癌症病人基因表达数据的差异,将癌症病人划分到不同的亚型,可为疾病的精准治疗提供指导改善治疗效果,也可以为药物研发和病理分析等提供辅助。聚类是基因表达数据分析中最主要的技术之一,如何利用聚类更高效、更精准地发现癌症亚型具有非常重要的现实意义。基因表达数据具有高维度、高噪声、样本少的特点,并且相似的基因(或样本)可能只在局部的样本(或基因)上有相关性。而传统聚类只能单独对样本(或基因)进行聚类,普遍基于样本的全局特征信息,在基于基因表达数据发现癌症亚型上面临着诸多不足。双聚类算法同时从基因和样本两个维度对基因表达数据进行聚类,能够挖掘出在少量基因(或样本)中有相关性的样本(或基因)集合,在基因表达数据分析中得到越来越多的应用。但是,现有双聚类算法普遍只能挖掘出某一种类型的双聚类簇,或以贪心搜索的方式挖掘多种类型的双聚类簇但是效率低。基因相互作用网络有助于发现癌症亚型,但是这种先验知识很少被结合到双聚类过程。此外,聚类集成技术是提升聚类的精度和鲁棒性的一种有效途径。双聚类集成算法需同时从行和列两个维度集成,比传统聚类集成算法在优化方法和时间复杂度上面临更大的挑战。现有的双聚类集成算法存在难以应用到大规模数据,对基础的双聚类簇结构的整合利用不充分等不足。本文针对癌症病人基因表达数据聚类研究中存在的上述问题,以提高基因表达数据上聚类的精度和效率进而准确发现癌症亚型为目标,完成的主要工作如下:(1)提出了一种基于矩阵分解和基因相互作用网络的双聚类算法(NetBC)。NetBC首先基于基因的表达值变化和基因相互作用网络,利用GeneRank算法设置基因的权值;其次,将权值矩阵结合到基于矩阵三元分解的平方残差目标方程中;最后,通过迭代优化行和列的指示矩阵,获取双聚类簇。在多种癌症基因表达数据集实验上的实验结果,都表明了该方法在癌症亚型分类上的有效性与优越性。在模拟噪声注入实验中,NetBC显示出了比相关方法对噪声更强的鲁棒性。此外,在模拟生成的不同类型的双聚类簇的数据集上,NetBC相比于相关方法,能更有效的挖掘出更多不同类型的双聚类簇。(2)为能够高效整合多个基础双聚类结果,本文提出了一种基于混合图的双聚类集成算法(CoCE)。CoCE采用不同的双聚类算法多次运行得到不同的双聚类簇,并且利用平方残差对双聚类簇的质量进行评估,从而度量基因-样本的关联性;其次,CoCE利用这些双聚类簇定义基因-基因和样本-样本之间的关联性,并结合基因-样本的关联性构建混合图;最后,将双聚类集成问题转化为混合图上的最小损失图分割问题,并利用混合图邻接矩阵的分块特性进一步优化和加速图分割问题。在多种癌症基因表达数据集上的实验表明,CoCE比现有相关算法能够更高效和准确地发现癌症亚型。
其他文献
高频轻载自润滑关节轴承主要应用于航空飞行器系统,其主要特点是自向心性、自润滑、工作于高频轻载工况下等特点。由于工作条件苛刻,一旦发生失效,将会对直升机系统产生影响,威胁到飞行员的生命安全。所以,关节轴承寿命预测对现阶段的设计、维修、寿命等方面具有重要的意义,需要研究一种适用于高频轻载条件下的自润滑关节轴承,通过精准预测其寿命,达到使用条件。自润滑关节轴承主要失效形式为自润滑材料的磨损达到一定量后,
随着计算机、数据处理系统、自动操作管理和支持系统、互联网、英特网、电子邮件、内联网、外联网、只读光盘、数码多功能光盘的到来,法律亦由打印阶段进入数码时代。资讯科
会议
伴随着生活水平的提高和居住空间环境的改善,人们的审美趣味趋于多元化,个性化的要求日益显著。单纯的功能性家居空间已满足不了人们的精神追求。更多的能够营造室内环境空间
在新媒体环境下,广告的播出形式日益丰富。较为传统的电视硬性广告已然不能满足观众的需求,甚至会引发观众对广告的反感心理。“限娱令”、“限真令”接连颁布使广告发布时间在一定程度上被压缩,传统电视综艺节目的版权费用越收越高,个别广告主们开始寻求新广告的传播渠道,将注意力转向为观众喜闻乐见的网络综艺节目。网络综艺节目以网络平台作为主要传播渠道,凭借非线性传播、内容多样化的优势,在碎片化阅读的时代高开高走。
随着数据信息的不断快速增长,出现了信息过载现象。为了有效缓解信息过载问题,研究者提出了个性化推荐的概念并进行了深入的研究和大量的实际应用,取得了很好的经济效益。协
2014年以来,为倒逼新能源汽车生产企业自主创新和技术进步,我国政府对新能源车行业实行补贴退坡制度。补贴退坡为新能源汽车生产者创造了多周期的生产决策环境,也引起了新能
多跳无线网络是一种非常具有潜力的网络,同时它也是一种复杂的系统,目前仍然存在一些问题需要彻底的研究。尤其随着互联网的飞速发展,导致网络的流量不断增长,因此网络能耗也
【目的】胰腺癌是一种常见的消化道恶性肿瘤,其发病率逐年升高,虽然医疗技术不断地进步,但是目前针对胰腺癌的治疗方案很不理想,总体5年生存率仅有5%左右。胰腺癌的发病机制尚未明确是其根本原因之一,在分子水平研究胰腺癌的发病机制及进展机理显得尤为重要。目前的研究表明微小RNA密切参与肿瘤的各种生理病理过程,研究发现miR-141在肿瘤疾病中显示出双重作用,即表达升高发挥抑癌作用和表达降低发挥促癌作用,具
随着中国城市化进程的加快,城市交通系统建设已进入快速发展阶段。随着城市中各种立交、跨线桥梁数量的增多,导致发生车辆撞击桥梁事件的次数也越来越频繁。桥梁作为十分重要的交通设施,运行安全是影响桥梁结构的因素之一,在设计阶段,爆炸、冲击、碰撞等作用通常作为偶然荷载考虑,随着各种交通碰撞事故的频繁发生,不仅会带来一定的经济损失和人员伤亡,更会导致受撞桥梁结构的损毁或坍塌。人们越来越关心桥梁结构在受到爆炸、
随着汽车工业的发展,行驶安全和交通拥堵问题日益得到人们的关注,智能驾驶技术被认为是解决问题的有效方法。本文针对智能车辆队列行驶中智能车的横向与纵向控制,设计了横向