面向代谢组学数据的分类算法研究

被引量 : 9次 | 上传用户:odeartiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代谢组学(Metabonomics)是继基因组学(Genomics)、转录组学(Transcriptomics)和蛋白质组学(Proteomics)之后兴起的系统生物学的又一重要分支学科,是定性和定量结合起来描述生物内源性代谢物质的整体状况及其对内外环境变化做出应答的规律性科学。针对代谢组学的研究在医药领域、发病机理探讨、基于代谢组的人体生理状况研究等都有非常重要的研究价值和现实意义。本文以代谢组学核磁共振数据(Nuclear Magnetic Resonance, NMR)和代谢组学液相色谱质谱联用仪数据(Liquid Chromatography Mass Spectrometry, LCMS)为研究对象,针对各个数据的特点分别研究了主成分分析法(PCA)、偏最小二乘法(PLS)及等距映射算法(ISOMAP)的分类精度和算法适用性,并且在此基础上对于PCA和PLS算法的不足之处进行优化提出核主成分分析法(KPCA)和正交偏最小二乘法(OPLS)。其中,在数据预处理环节本文首次将独立成分分析法(Independent Components Analysis, ICA)应用于代谢组学数据预处理,结果显示ICA算法能够把代谢组学数据分离出相互独立的分量,有效减少数据的噪声信号。由于很多分类算法都借鉴了PCA的算法思想,所以本文仔细阐述了PCA算法的原理,然后使用PCA对第一组NMR数据进行分类,分别绘制了样本点的二维得分图和三维得分图(Score Plot),其中基于性别的分类效果一般,基于药物类别的分类效果欠佳。考虑到可能是PCA算法线性模型的局限性,提出优化算法即基于核的主成分分析法(KPCA).通过对比显示KPCA的分类效果有明显的提升,但面对多影响因子问题时KPCA仍然没有达到预期的分类效果。针对此问题提出偏最小二乘法(PLS), PLS算法成功解决了多影响因子问题,为了使类与类之间的分离性最大,所以又对PLS进行优化,提出正交偏最小二乘法(OPLS),然后又从载荷图角度(Loading Plot)对分类结果和生物标志物即主动变量(Biomarker)进行了全面的解释。最后为了和传统分类算法对比,提出了新型的等距映射算法(ISOMAP),并重点研究了该算法针对未知数据预测能力,然后通过交叉验证(Cross Validation)证明了算法的准确性和可靠性。
其他文献
2013年12月福建博物院考古研究所、南平市文管办、邵武市博物馆等对邵武市鹰头山遗址进行了抢救性考古发掘,发现并清理一座商代晚期竖穴土坑墓,出土完整陶器9件,以罐类器为主
<正>5月28日,由国家文物局主办,福建省文化厅、北京市文物局共同承办的"海上丝绸之路文物特展"专家座谈会在首都博物馆举行,来自北京、江苏、辽宁、福建的近20名全国知名专家
近些年,随着信息技术与计算机科学的飞速发展,信息化的管理手段越来越成为国家电子政务建设的重点。伴随着国内电子政务网络化与自动化的发展,已经有越来越多的政府部门实现
滚针、滚柱、滚子等圆柱状零件应用于轴承和机床等机械零件和机械设备,尤其在圆柱状磁性材料领域也有广泛的应用。滚子件种类繁多,长度参差不齐,在保证滚子件制造技术前提下,
福建省特种设备检验院自2007年5月开始率先在全国开展电梯轿厢手机网络覆盖工作。经过近两年的努力,目前,福建省(除厦门外)在用乘客电梯轿厢手机信号平均覆盖率达89.1%,为广大群众乘
我国各大图书馆的馆藏目录陆续由书 本式 、卡片式发展为机读型,并相继上网,为读者了解各馆的藏书提供了方便。而清华大学图书 馆编制的“国内上网图书馆”,则是众多图书馆网址
随着科技的进步和社会经济的快速发展,特别是计算机、单片机等的大量应用,用户对电力系统不但提出了用电总量增加的要求,更提出了用电质量提高的要求。但是,由于电网中的感性负载
新刑诉法的修改在维护诉讼主体合法权益的同时,对刑事诉讼活动也产生了重大影响。本文从自侦工作的角度出发,对侦查阶段辩护律师的提前介入进行分析,就如何消除律师提前介入