论文部分内容阅读
代谢组学(Metabonomics)是继基因组学(Genomics)、转录组学(Transcriptomics)和蛋白质组学(Proteomics)之后兴起的系统生物学的又一重要分支学科,是定性和定量结合起来描述生物内源性代谢物质的整体状况及其对内外环境变化做出应答的规律性科学。针对代谢组学的研究在医药领域、发病机理探讨、基于代谢组的人体生理状况研究等都有非常重要的研究价值和现实意义。本文以代谢组学核磁共振数据(Nuclear Magnetic Resonance, NMR)和代谢组学液相色谱质谱联用仪数据(Liquid Chromatography Mass Spectrometry, LCMS)为研究对象,针对各个数据的特点分别研究了主成分分析法(PCA)、偏最小二乘法(PLS)及等距映射算法(ISOMAP)的分类精度和算法适用性,并且在此基础上对于PCA和PLS算法的不足之处进行优化提出核主成分分析法(KPCA)和正交偏最小二乘法(OPLS)。其中,在数据预处理环节本文首次将独立成分分析法(Independent Components Analysis, ICA)应用于代谢组学数据预处理,结果显示ICA算法能够把代谢组学数据分离出相互独立的分量,有效减少数据的噪声信号。由于很多分类算法都借鉴了PCA的算法思想,所以本文仔细阐述了PCA算法的原理,然后使用PCA对第一组NMR数据进行分类,分别绘制了样本点的二维得分图和三维得分图(Score Plot),其中基于性别的分类效果一般,基于药物类别的分类效果欠佳。考虑到可能是PCA算法线性模型的局限性,提出优化算法即基于核的主成分分析法(KPCA).通过对比显示KPCA的分类效果有明显的提升,但面对多影响因子问题时KPCA仍然没有达到预期的分类效果。针对此问题提出偏最小二乘法(PLS), PLS算法成功解决了多影响因子问题,为了使类与类之间的分离性最大,所以又对PLS进行优化,提出正交偏最小二乘法(OPLS),然后又从载荷图角度(Loading Plot)对分类结果和生物标志物即主动变量(Biomarker)进行了全面的解释。最后为了和传统分类算法对比,提出了新型的等距映射算法(ISOMAP),并重点研究了该算法针对未知数据预测能力,然后通过交叉验证(Cross Validation)证明了算法的准确性和可靠性。