应用于基因选择与癌症分类的微阵列数据分析

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:maomao820
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的顺利完成,DNA微阵列技术越来越完善,癌症研究开始进入新的时代。DNA微阵列技术是一种物理学、微电子学与分子生物学综合交叉形成的高新技术。DNA微阵列技术具有划时代意义的特点是能同时监测成千上万条基因的表达,并能在同一阵列上对每一条基因进行定量表示;解决了特定物种细胞中,在某一特定的时间、特定的条件下基因表达谱测量问题。当前,DNA微阵列技术不仅是基因组信息学研究的主要支撑技术,而且为在基因组水平上进行癌症研究提供了最基本和必要的信息及依据,在生物学和医学研究中正受到越来越多的应用。癌症微阵列数据分析使得在大规模基因水平上深入研究癌症的发生、扩散和转移等病理特征成为可能,并被公认为癌症研究与治疗的强大工具。众所周知,癌症是一种复杂的遗传性疾病,往往是由先天的或外界的影响所造成的一些基因的突变、缺失等原因所引起。在临床表现上,癌症往往复杂多样并具有极强的隐蔽性和高复发率,从而导致较低的临床诊断与分类成功率。然而,癌症的成功治疗却往往在于可靠而精确的癌症类型诊断与预测。基于这些原因,癌症关键基因识别和癌症诊断与分类是癌症研究中的两项重要内容。为此,本文主要研究和探索了基于微阵列数据分析的癌症关键基因选择和癌症诊断与分类技术。 众所周知,基因调控是一种重要的基因活动机制。在遗传中心法则中,基因调控活动通过调节和控制遗传信息由DNA双链分子转录为mRNA分子以决定基因在生物体内的表达。在不同的外部环境(实验)条件下,基因调控将对生物体的微观基因环境产生不同的影响。简单假设在两种不同的实验条件下被调控的基因表达水平表现为三种调控状态,即上调控状态、下调控状态和非显著调控状态,我们使用概率统计方法对基因调控状态进行建模。在该模型的基础上,我们应用三种参数概率估计方法对基因调控概率(GRP)进行估计。基于这种基因调控信息,我们提出了基于基因调控概率的癌症微阵列数据分析系统。概率统计方法的使用使得我们的分析系统能够克服癌症微阵列数据天生高噪声和高变异的缺陷。同时,众所周知,癌症微阵列数据中隐藏着大量的有用信息,概率统计方法也帮助了我们的分析系统挖掘和提取这些潜在的有用信息,比如上述基因调控信息。该基于基因调控概率的癌症微阵列数据分析系统主要包括两种癌症微阵列数据分析技术,即基于GRP的基因选择方法利基于GRP的加权投票癌症诊断与分类方法。这两种分析技术分别实现了癌症研究中的两个重要目标:癌症关键基因识别利癌症诊断与分类。对于该分析系统,本文在多个公开的癌症微阵列数据上进行验证,并与现有的分析方法进行比较。实验结果表明我们的基于基因调控概率的癌症微阵列数据分析系统具有良好的分析性能。 目前,大多数癌症诊断与分类方法都是基于线性模型的分类技术。为了考察非线性癌症诊断与分类性能,本文探索了基于径向基函数神经网络的非线性癌症诊断与分类方法。众所周知,径向基函数网络作为一种非线性分析技术已经被成功的应用到了许多领域的非线性数据分析中,比如,信号处理,系统建模以及控制和故障诊断等领域。径向基函数网络被认为是通用的函数逼近子并具有快速的学习能力和紧致的拓扑结构等优点。为了提高径向基函数网络的分类性能,本文提出了一种改进模拟退火(MSA)径向基函数网络优化算法,并将优化的径向基函数网络用于非线性癌症诊断与分类。在白血病和结肠癌两个数据上的应用证明了该方法良好的癌症诊断与分类性能。 从模式识别和机器学习角度看,癌症关键基因识别问题属于特征选择问题。为此,本文集合两种特征选择方法(即filter方法和wrapper方法)的优点提出了一种基于支持向量和惩罚策略(SVPS)的癌症关键基因选择算法。众所周知,支持向量机是一种能够实现高维甚至无穷维数据的有效分析方法。该方法能够有效避免传统机器学习算法应用中的维数恶化问题,最适合处理像癌症微阵列数据这样的高维小样本问题。因此,在我们的算法中,支持向量机分类器被使用。在癌症微阵列数据上的实际应用表明了我们提出的基于支持向量和惩罚策略的基因选择算法能够有效地识别癌症关键基因。 本文的最后部分对研究工作进行总结并讨论了进一步的工作内容和方向。
其他文献
人脸识别和分析可以广泛应用在个人身份识别、安检、人机交互、表情分析等工程应用中。计算机人脸检测作为人脸识别、分析等应用的前提和基础,很早就受到人们的关注。随着计
开关电源是现代生活电子设备的重要组成部分。开关电源具有效率高、绿色环保等优点。开关电源被誉为高效能电源,它代表着稳压电源的发展方向,现已成为稳压电源的主流产品。采用
计算机技术发展到今天,嵌入式系统的应用越来越广泛,嵌入式计算机在应用数量上远远超过了各种通用计算机,一台通用计算机的外部设备中就包含了5-10个嵌入式微处理器。而随着
随着人类对自然世界的不断探索,人们总希望能够通过某种数字化机器来实现人类视觉的功能,自动地获取外部世界的信息。人们这方面的研究集中在计算机视觉、图像工程等研究领域
电能自动抄表技术是将数据采集、远程传输和智能化信息处理应用于电能供用与管理系统中的一项综合性新技术。本文针对了电能自动抄表领域技术现状,分析了现有电能自动抄表技
近几十年来智能交通系统(Intelligent Transportation Systems简称ITS)的理论和应用研究在各国掀起了热潮。它的全面研究涉及到交通工程学,智能控制科学,计算机视觉和图像处
在炼铁过程中,保持合理的炉温水平是达到炉况稳定顺行、实现高炉生产“优质、高产、长寿、低耗”的直接保证。由于高炉过程的复杂性,精确掌握炉内的温度分布尚不可能,一般通
变电站在电网输配电中起着至关重要的作用,因此它的安全运行十分重要。在变电站大力推行“实行无人值守、提高自动化水平”的今天,变电站设备运行可靠性判定、安全运行管理、远
随着以太网技术在工业控制领域中的应用,基于工业以太网和现场总线的监控组态软件越来越显得重要。而图形界面系统是监控组态软件的一个重要组成部分,它以图形方式对控制系统