【摘 要】
:
利用基因表达谱数据进行肿瘤分类是生物信息学领域的研究重点之一。基于基因表达谱,使用现代数据挖掘方法研究肿瘤的发生机制有助于肿瘤的诊断和个性化治疗。但是,基因表达谱
论文部分内容阅读
利用基因表达谱数据进行肿瘤分类是生物信息学领域的研究重点之一。基于基因表达谱,使用现代数据挖掘方法研究肿瘤的发生机制有助于肿瘤的诊断和个性化治疗。但是,基因表达谱数据通常具有高维小样本的特点,这使得很多传统的经典数据挖掘方法不能很好地应用于肿瘤分类。因此,亟需有效的数据处理方法来解决这一难题。近来,受到基于l1范数最小化方法的启发,稀疏表示方法作为一种新颖强大的数据处理方法应运而生。稀疏表示具有鲁棒性强、识别率高等众多优点,本文重点研究了其在肿瘤分类中的应用。主要工作如下:基因表达谱数据高维、高噪和高冗余的特性使得很多经典的分类方法不能很好地用于肿瘤分类。针对这一问题,本文设计了一种基于稀疏表示的基因选择方法来对其进行降维、去噪和去冗余。该方法分为三个步骤,首先利用稀疏表示计算基因与类别之间的相关度,根据相关性对基因进行过滤,选择排名靠前的信息基因。然后基于稀疏表示相关性度量设计了一种最大相似树算法对信息基因进行聚类,得到基因簇,最后在每个基因簇中选出代表基因组成最终的特征基因子集,这种方法能有效选出与分类最相关的基因。该方法不仅能生成更小的特征基因子集,还提高了分类性能。针对目前肿瘤分类算法分类性能和泛化能力不高的问题,本文设计了一种基于K-SVD的稀疏表示分类方法进行肿瘤分类。该方法包括两个阶段,首先通过K-SVD字典学习算法对每一类训练样本进行字典学习,进行去噪和去冗余,从而提取到最能稀疏表示测试样本的训练字典,得到的新训练样本字典具有更强的表示性和判别性;然后将测试样本表示为所有新训练样本字典的线性组合,根据表示系数的判别函数对测试样本进行分类。在七个公共肿瘤数据集上的大量实验也证明了该方法是有效的,比一些典型的方法实现了更好的分类性能。
其他文献
化学驱是注水开发油藏到中后期的必经阶段,而复合驱则是化学驱技术中使用较多且有成功先例的驱油技术之一。复合驱虽能充分发挥波及和洗油效率的协同作用,但色谱分离效应使规
目的:恶性肿瘤细胞产生的多种生物活性分子,抑制机体的免疫功能,构成肿瘤免疫逃逸的重要机制。灵芝多糖的抗肿瘤作用已被很多实验证实,灵芝多糖可增强细胞免疫和体液免疫。本
金平地块位于金沙江-红河富碱侵入岩带的南段,区内出露的中酸性岩脉主要有正长花岗岩、正长花岗斑岩、细晶正长花岗岩及石英正长斑岩等,呈小岩株、岩脉、岩墙等形态产出,矿物
近年来,遥感技术在矿产勘查和成矿预测方面的应用越来越广泛。运用遥感数据提取蚀变信息可以进行快速的矿体定位,提高找矿效率。东昆仑地区发育典型的石英脉型金矿,热液蚀变
时至今日,癌症仍然是人类最高危的疾病之一。由于基因芯片技术的迅猛发展,海量的癌症基因表达数据能够成功获取并用于研究。利用基因表达数据来分析诊断病症,已成为后基因组
目前我国用于蔬菜生产的温室大棚总面积居世界第一位,但机械化生产水平不高,随着人们生活水平的提高和劳动力的短缺,温室大棚种植对微型机械的需求越来越迫切。现在温室中蔬
信息技术的快速发展,各种类型的多媒体数据以数字化的形式在网络上发表和传播。然而由于网络的不安全性,数字化的多媒体数据很容易受到非法复制、拷贝和篡改。因此,必须对这
目前随着互联网规模的增长,搜索引擎是从互联网获取信息的重要工具,然而在高速的发展中,搜索引擎也存在着不足.据估计垃圾网页可能占到中国总网页数量的50%左右,虽然总比例在
本文选择了几种不同构型的穴盘和不同种类的生根粉,研究了在不同穴盘构型以及不同种类生根粉的作用下,果菜类穴盘苗根系的发生规律及其调控方法,并且设计出了一款新型控根育
橘红心大白菜(Brassica camperstris L.ssp.pekinesis)因球心暴露在空气中逐渐变成橘红色而得名,营养价值丰富、色泽艳丽,是大白菜品质育种的目标之一,细胞质雄性不育系(CMS)不需