论文部分内容阅读
研究意义:利用非靶向代谢组学进行生物标志物的研究经常需要成百上千个人类样品,因此,采集大规模质谱代谢组学样品的时候,必须分为几个批次,数据采集时间跨度从数月以至数年不等.因此,在数据采集过程中,随着时间造成的质谱信号的漂移(批次内和批次间)是不可避免的,这是大规模质谱代谢组学数据的主要干扰因素.因此,对于大规模质谱代谢组学数据,我们需要合适的数据标准化方法来对数据进行整合,从而去除掉误差,以便进行统计学分析.我们发展了基于机器学习方法-支持向量机回归(SVR)的数据标准化方法,用于大规模质谱代谢组学数据的校正和整合.研究方法:使用甲醇提取人血清样本,并使用UHPLC-QTOF(Agilent 6550 iFunnel QTOF)分析样品.质谱原始数据(.d)使用ProtemoWizard转化为mzXML格式的数据,并使用XCMS进行数据处理.XCMS处理之后,使用R包CAMERA进行注释.我们将基于SVR的数据标准化方法开发成R包-MetNormalizer.MetNormalizer可以在Windows,Linux和Mac OS上安装.安装过之后,可以使用帮助文档学习MetNormalizer的使用.实验结果:我们开发了基于支持向量机回归的数据标准化方法进行大规模质谱代谢组学数据的校正和整合.SVR可以非常精确的拟合质谱随着时间的非线性信号变化,并且对异常值不敏感,因此与线性以及LOESS标准化方法相比,SVR标准化方法具有更强的预测能力.我们设计了两个研究来证明SVR方法的更为优越的标准化方法.研究1有325个人血清样本,包括37个QC和288个研究样品.这个研究是用来评价SVR方法去除batch内误差的能力.在该研究中,一共检测到1197个峰,并且,RSD小于30%的峰的比例从56.6%增长到了90.7%.原始数据的RSD中位值从27.2%降到了9.7%.进一步的统计表明,使用SVR标准化之后,1197个peak中的1194个峰的RSD都降低了.研究2是一个大规模代谢组学研究,目的是发现可以用于食管癌早期诊断的生物标志物.该研究包括了768个人血清样本,被分到四个批次中进行数据采集.整个数据采集时间超过了两个月.总共检测到1521个峰.RSD小于30%的峰的数量从499个(32.8%)增加到1421个(93.5%).除去检测误差之后,可以提高多变量分析的分类和预测精度.ROC(受试者接受曲线)分析表明AUC(曲线下面积)从原始数据的0.873提高到了0.932.主要结论:与现在常见的标准化方法相比,SVR标准化方法可以非常有效的去除掉大规模代谢组学数据中的检测误差并对其进行整合,并且能够增强多变量分析的预测精度.