基于信息熵理论的样本特异性癌症相关基因挖掘和亚型识别研究

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:java777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症一直是威胁人类生存的重要因素之一,每年约有近六分之一的死亡由癌症造成。癌症是一种致病机理极其复杂的异质性疾病,不同患者往往表现出不同的致病机理。因此,传统的诊疗方式难以针对每个癌症患者给出精确的治疗方案。表观遗传学和全基因组测序技术的发展为进一步解释癌症的发生发展以及针对单个患者进行研究提供了可能。因此,在表观遗传学的基础上开展个性化医疗相关的研究迫在眉睫。本文基于信息熵理论从单个癌症患者的角度上展开癌症相关致病基因挖掘和癌症亚型识别的研究,具体如下:(1)基于DNA甲基化数据,提出了一种信息增益模型挖掘每个患者的样本特异性癌症相关基因。(mining of Cancer Sample-Specific associated genes using Information Gain,CSSIG)以DNA甲基化数据为基础,开发了一种在基因层面上获取全面DNA甲基化特征,并可以测量癌症患者携带特异性信息的信息增益模型,用于挖掘癌症相关基因。该模型可以获得每个癌症患者所有基因的样本特异性得分,并通过显著性测试筛选出每个患者的样本特异性基因。接下来,本文还设计了仿真实验用于验证信息增益模型的有效性以及确定特征表示方法。在真实的生物数据实验中,我们选取了31个最为显著的样本特异性基因并做了相关的实验验证,通过分析样本的特异性,基因的富集分析,功能分析,表明了这些基因在样本中的生物学意义,有助于了解每个癌症患者疾病的不同机制。(2)融合多组学数据,提出了一种基于样本特异性的癌症亚型识别策略。本文提出了一种使用信息增益模型获取多组学样本特异性得分替代原始多组学数据进行癌症亚型识别的策略。将该策略应用在五种经典的癌症亚型识别方法上,我们发现多组学样本特异性得分可以优化聚类过程,强化癌症亚型识别的精度。在真实数据上的亚型识别结果表明,多组学样本特异性得分相较于原始多组学数据在各种评价标准上都具有较大的优势,在生存分析曲线上有着更为明显的区域边界。
其他文献
随着数据挖掘、云计算、物联网等诸多新兴计算机技术的迅速发展,网络数据的流量传输呈现出井喷式增长的趋势,传统网络已难以适应急剧增加的网络需求。近年来,以软件定义网络(SDN)为代表的新型网络的研究成为了未来网络发展的主流。作为一种新型的网络架构,逻辑上集中的控制层面、灵活的开发接口都有助于SDN去改变传统网络的静态化状态,其可编程性和独特的流表技术也可以满足更多的网络应用需求,解决了传统网络的不足。
供水管网漏损问题是供水体系中的重要问题之一。管网漏损不仅会导致水资源的浪费,影响周围居民的正常用水,而且会造成周围环境中细菌的滋生,影响水质,严重情况下可危害居民的生命安全。供水管网漏损定位的实现,可帮助供水部门的工作人员快速地确定管网漏损位置,为后续的管道修复争取了时间,极大的改善了居民的生活用水质量。因此及时而准确地确定管网漏损位置,对控制管网漏损,防止我国水资源浪费有着重大意义。供水管网数据
随着数据时代的到来,量子保密算法得到迅速发展,如何精进量子保密算法便成了时下热门的话题之一。传输效率和传输准确率是衡量信息传输的重要标准。为了提高传输效率和传输准确率,可以从信息预处理角度和改变传输进程角度来进行量子保密算法的改进。目前,针对信息预处理可以划分为经典信息处理和量子信息处理;针对信息衡量标准可以划分为传输效率和准确率;针对信息传输进程,可以通过改变两端交互次数来实现。本论文通过对现有
科技的迅速发展使得现代控制系统的复杂度变得越来越高,以前的简单系统和研究方法已经不能满足复杂控制的要求,因此,寻找能够契合复杂系统的研究方法也成为了广大学者的研究目的之一。由于广义系统的复杂性,能够更具体的对复杂系统进行描述,使得广义系统应用在复杂工业系统中的应用也引起了学者们的关注。这篇文章主要是对广义时滞采样数据系统的容许性进行分析与研究。具体内容如下:讨论了采样数据系统的能稳性问题。具体方法
随着汽车保有量的持续升高,加上各国对环境污染的日益重视,人们对汽车尾气的排放标准在不断严苛,汽车轻量化设计成为各大汽车厂商解决问题的重要途径之一。钛合金因其较高的比强度,质轻,耐蚀等优异性能,成为汽车零部件的优质替换材料。利用钛合金制造的发动机运动关键零部件可以降低惯性质量,减小摩擦力,提高发动机的燃油效率,同时可缩小尺寸,使发动机和整车的质量减轻,提高发动机的转速及输出功率。所以,在汽车向轻量化
装箱问题一种经典的组合优化问题,装箱问题的理论研究对制造业,物流业以及计算机等行业的发展有着非常重要的实际意义,其研究目的是为了提高资源的利用率,降低生产成本。本文主要研究二维装箱问题中的带装箱问题(2DSPP),2DSPP所研究的主要内容是:通过给定一组矩形物品以及宽度固定且高度无限的矩形长板,并将这一组矩形物品不重叠不旋转的放入到矩形长板中,其目的是将所用矩形长板的高度最小化。本论文的主要工作
数字时代下,人们对于阅读选择越来越趋于多元,传统纸质图书在与其他阅读媒体竞争中有所式微,随着电子纸阅读技术的不断革新,手机、i Pad等阅读媒体渐渐吸引了越来越多的眼球,传统的纸质图书出版面临的严峻挑战前所未有。然而近年来在国内外各大书展上我们总能看到立体书柜台前人头攒动也经常能看到国内外一些专业立体书商大赚特赚的新闻。为什么在数字阅读如此风行的今天,立体书出版不仅未迎来寒冬反而呈现生机勃发的景象
当前,我国对乡村振兴、乡村文化遗产保护的重视度越来越高,传统村落作为人类文化遗产有着不可或缺的作用。而原生态传统村落的肌理与村落中建筑的风貌,在盲目无序的保护发展中遭受着严重破坏。如何对传统村落空间形态进行量化分析,如何对传统村落的各项指标进行精准控制,此类问题目前尚未解决。笔者前期历时两年,通过查阅大量文献与收集实地勘查数据中发现:针对传统村落的保护,多为建筑历史人文方面的定性研究,缺少定量分析
传统建筑方式向新型建筑工业化转变是大势所趋,装配式建筑作为建筑工业化的产物必然迎来很大的发展。装配式建筑构件在达到使用年限后可以回收利用,这极大提高了建筑部品的经济性和环保性。装配式建筑参与主体多、涉及行业广的特点使得参与主体之间的合作程度会有所差别,通过对装配式建筑项目参与主体合作机制展开研究,以期提高参与主体合作程度和参与积极性。首先,系统地阐述了装配式建筑研究的相关理论和方法,以及在项目实施
随着我国城镇化和工业化进程的不断推进,建筑固废和工业固废的产生量逐年递增,建材行业具备同时消耗工业固废和建筑固废的巨大潜能,利用工业废渣等工业固体废弃物制备碱激发胶凝材料可取代水泥,有效减少水泥用量,降低CO2排放,同时利用建筑垃圾中再生粗骨料为原料,开发出基于碱激发胶凝材料的再生混凝土制品,有利于资源的再利用、节能环保和可持续发展。本文以碱激发矿粉和矿粉+粉煤灰(30%)作为胶凝材料,利用Ⅰ类、