肿瘤基因芯片表达数据分析相关问题研究

被引量 : 0次 | 上传用户:xixijeffkol
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“肿瘤基因组计划”的进行,基因芯片技术在肿瘤研究中得到了广泛的应用。肿瘤基因芯片能够为肿瘤基因组研究提供大量的转录水平上的基因表达数据。这些数据反映了基因在不同组织细胞的不同生长发育阶段或不同生理状态中表达水平的变化。相应的数据分析技术使得从基因组水平上揭示肿瘤的本质成为可能,为肿瘤相关基因的研究提供了一种全新的、系统的研究方法,并在肿瘤临床诊断与治疗等领域备受关注。目前,人们已经确认了一些与肿瘤发生发展相关的基因,并对其功能和调控机制有了一定的了解,积累了一些相关知识。但是,这些研究成果对于绘制肿瘤基因组图谱,攻克肿瘤还是远远不够的。因此,如何对肿瘤基因芯片表达数据进行有效地分析,以及如何利用已有知识作为辅助对这些数据进行有效地分析,从而找出与肿瘤相关的基因并确定其功能及调控机制,已经成为肿瘤基因组学研究中亟待解决的问题。在这一背景下,本文以肿瘤基因芯片表达数据分析为主题,围绕肿瘤基因表达数据的预处理、聚类分析以及基因表达调控网络的构建三方面问题进行了深入分析和研究,其主要内容和创新之处包括:(1)缺失值估计方法和标准化方法研究。在对缺失值估计方法的研究中发现,基因表达数据间的相似性对缺失值估计的精度有很大影响,而且用来估计缺失值的完全基因的表达数据在空间中的分布规律是估计缺失值一个很好的依据。因此,本文提出了一种基于KNN-SVR (K-nearest Neighbor and Support Vector Regression, KNN-SVR)的缺失值估计方法。该方法以与目标基因具有较高相似性的完全基因子集为训练集使用SVR算法建立回归模型对缺失值进行估计,提高了估计的精确性和稳定性。在对肿瘤基因表达谱分类诊断和分型识别的研究中发现,用当前的标准化方法处理后的数据进行分析会引起类型偏倚,导致样本的错误分类。因此,本文对标准化方法进行了扩展,利用类别信息进行标准化处理,使表达数据更适用于肿瘤基因表达谱分类诊断和分型识别的分析。(2)肿瘤基因芯片时序表达数据的聚类方法研究。针对基因间普遍存在的异步调控和局部调控关系,本文以细胞周期的基因表达数据为研究对象,提出了局部最大相关系数的概念,定义了基因间的相关关系;然后给出了在对异步调控和局部调控的识别中设定最大时延范围和局部相关的最短样本长度应遵循的规律;最后在局部最大相关系数的基础上对K均值算法进行了改进,提出了一种基于局部最大相关系数的聚类方法。该方法的核心是局部最大相关系数,它能够在不破坏基因表达数据间整体相关性的基础上很好地识别出表达数据间的局部和异步相关性,为功能相似的基因和共调控基因的聚类提供了一种更为有效的相似性测度。(3)肿瘤基因芯片非时序表达数据的聚类方法研究。为了消除非时序表达数据中的噪声并识别弱差异表达基因,本文提出了降噪CICA(Constrained Inde-pendent Component Analysis, CICA)模型并对肿瘤基因的非时序表达数据进行聚类。基于降噪CICA模型的聚类方法主要包括两部分:首先使用Ljung-Box Q统计量作为对“白”特性的约束,以高斯性最强为目标,抽取出一个高斯白噪声对表达数据降噪;然后用CICA对降噪后的基因表达数据聚类,其中,以待研究的基因的表达水平为约束,以非高斯性最强为目标,分离出相关的生物过程或功能类。该方法能够在降噪的同时较好地保持基因表达数据的细节信息,实现了对基因表达数据的降噪,提高了对弱差异表达基因的识别能力。(4)基因表达调控网络构建方法研究。本文首先针对基因表达调控的多时延特性,建立了N阶动态贝叶斯网络模型;然后针对仅从基因表达数据中不能得到理想的调控网络的问题,在N阶动态贝叶斯网络的基础上,提出了一种结合多源先验信息的多时延基因表达调控网络构建方法。该方法根据多源先验信息的特点将其转换为不同分布的网络结构先验概率,并与基因芯片时序表达数据相结合,通过马尔可夫链蒙特卡罗法(Markov Chain Monte Carlo, MCMC)学习N阶动态贝叶斯网络的结构。该方法还在表达数据与先验信息相互独立的基础上,在MCMC学习过程中将网络结构接受概率分解计算,灵活地实现了基因表达数据和多源先验信息的融合,从而达到共同学习调控网络的目的。结合多源先验信息的多时延基因表达调控网络构建方法不但对基因间的多时延调控关系具有很好的识别能力,而且降低了数据噪声的影响。
其他文献
高职院校思想政治理论课作为思想政治教育的主阵地,在国家和社会发展中发挥着重要作用。高职院校思政课教师在角色扮演中,存在着角色认识不清晰,定位不准确,角色扮演能力不足
<正>中国音乐产业历经十年变革,意图从传统唱片业转型到数字音乐,面对移动互联网大潮,如何化被动为主动、在业内站稳脚跟是众多从业者的期待。11月7日至10日,由北京市版权局
近年来,玉米在西北半干旱地区,特别是黄土高原南部半干旱地区广泛种植,已成为这一地区重要的栽培作物。但目前玉米实际产量与潜力产量仍然存在较大差距,且水分生产效率不高。
网络热词“打call”从日语发展到汉语,在语言的认知中发生变化。研究发现,“打call”在汉语中意象图式事体要素、行为要素、语义、语用条件都发生了变化。事体要素中事体A和
<正> 钢琴音乐艺术在西方音乐的发展历史中有着很重要的作用。钢琴音乐艺术大致分为巴罗克、古典主义、浪漫主义和20世纪等四个时期。各个时期的钢琴音乐艺术形成了不同的艺
以电磁式鱼雷发射装置为基础,构建了鱼雷发射的动力学模型,对水体压强变化、活塞及鱼雷的运动过程进行分析,根据数学模型应用Matlab进行初步的仿真计算,明确系统中各个物理量
随着经济的迅速发展、社会的不断进步和人民生活水平的提高,人们对旅行的质量提出了更高的要求,建设城际铁路客运专线,实现客货分线运行将成为我国铁路新的战略选择。2008年
目的探讨个体化全程护理干预对乳腺癌术后化疗患者生活质量的影响。方法选择2007年1月~2011年5月在本中心开始行首次化疗并继续完成4~6疗程的患者106例,其中对照组54例是2007年
随着空间任务日趋复杂,对星载计算机提出了更高要求,如何提高星载计算机的可靠性、安全性和实时性成为卫星、飞船火箭控制系统亟须解决的问题。本文设计了一种三模冗余容错星
随着风险社会的到来,转型期的中国正面临前所未有的挑战。从SRAS危机开始,一系列“天灾人祸”的接连发生,不仅给人们带来巨大的物质损失和心灵伤痛,更严重影响国家的长治久安