基于机器学习的大规模代谢组学数据的校正和整合

来源 :第34届(2016)中国质谱学会学术年会 | 被引量 : 0次 | 上传用户:star2006111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  研究意义:利用非靶向代谢组学进行生物标志物的研究经常需要成百上千个人类样品,因此,采集大规模质谱代谢组学样品的时候,必须分为几个批次,数据采集时间跨度从数月以至数年不等.因此,在数据采集过程中,随着时间造成的质谱信号的漂移(批次内和批次间)是不可避免的,这是大规模质谱代谢组学数据的主要干扰因素.因此,对于大规模质谱代谢组学数据,我们需要合适的数据标准化方法来对数据进行整合,从而去除掉误差,以便进行统计学分析.我们发展了基于机器学习方法-支持向量机回归(SVR)的数据标准化方法,用于大规模质谱代谢组学数据的校正和整合.研究方法:使用甲醇提取人血清样本,并使用UHPLC-QTOF(Agilent 6550 iFunnel QTOF)分析样品.质谱原始数据(.d)使用ProtemoWizard转化为mzXML格式的数据,并使用XCMS进行数据处理.XCMS处理之后,使用R包CAMERA进行注释.我们将基于SVR的数据标准化方法开发成R包-MetNormalizer.MetNormalizer可以在Windows,Linux和Mac OS上安装.安装过之后,可以使用帮助文档学习MetNormalizer的使用.实验结果:我们开发了基于支持向量机回归的数据标准化方法进行大规模质谱代谢组学数据的校正和整合.SVR可以非常精确的拟合质谱随着时间的非线性信号变化,并且对异常值不敏感,因此与线性以及LOESS标准化方法相比,SVR标准化方法具有更强的预测能力.我们设计了两个研究来证明SVR方法的更为优越的标准化方法.研究1有325个人血清样本,包括37个QC和288个研究样品.这个研究是用来评价SVR方法去除batch内误差的能力.在该研究中,一共检测到1197个峰,并且,RSD小于30%的峰的比例从56.6%增长到了90.7%.原始数据的RSD中位值从27.2%降到了9.7%.进一步的统计表明,使用SVR标准化之后,1197个peak中的1194个峰的RSD都降低了.研究2是一个大规模代谢组学研究,目的是发现可以用于食管癌早期诊断的生物标志物.该研究包括了768个人血清样本,被分到四个批次中进行数据采集.整个数据采集时间超过了两个月.总共检测到1521个峰.RSD小于30%的峰的数量从499个(32.8%)增加到1421个(93.5%).除去检测误差之后,可以提高多变量分析的分类和预测精度.ROC(受试者接受曲线)分析表明AUC(曲线下面积)从原始数据的0.873提高到了0.932.主要结论:与现在常见的标准化方法相比,SVR标准化方法可以非常有效的去除掉大规模代谢组学数据中的检测误差并对其进行整合,并且能够增强多变量分析的预测精度.
其他文献
  中国是食管癌的高发国家,发病率和死亡率居世界前列[1]。食管癌是人类常见的消化道恶性肿瘤之一,具有恶性程度高、病程进展快、易复发和转移、预后差的特点。由于食管癌
  捕集离子淌度质谱是一种新的离子淌度质谱,它利用平衡流动气体对离子的推动力和电场的反向作用力将离子捕集在离子漏斗中,然后通过调节降低电场的反向作用力让离子选择性地
会议
  质谱技术是现代众多分析测试技术中同时具备了灵敏度高、特异性好、响应速度快的普适性方法。作为化学分析的"黄金标准",质谱技术目前已在全球范围内被广泛应用于食品安全
  军控核查核取证表征分析技术体系中,同位素质谱以其高精度和高准确度的分析优势,在核材料和核恐怖爆后取证分析中发挥中重要的作用。在核材料取证铀钚同位素分析、生产年龄
  采样锥和截取锥是电感耦合等离子体质谱仪进样系统最为核心的部件,随着采样锥和截取锥的革新,推出了提高仪器灵敏度的Jet采样锥和高性能X截取锥。研究者对不同锥组合提高不
  现代科学与技术发展需要对样品进行纳米级别空间分辨的分析,而受限于衍射极限,基于激光采样的质谱技术,其空间分辨率局限在微米尺度而无法满足纳米区域分析需求1.随着近
  自2004年以来,以原位、快速、不依赖于色谱分离的常压快速质谱检测方法应运而生,并迅速在行业内发展壮大,成为质谱分析测试领域最新的发展方向1,在药物发现领域的应用也
会议
  Mass spectrometry imaging(MSI)has been widely used to simultaneously observe multiple biological molecules on tissue sections with high mass accuracy and hi
  分子的结构决定了其生物化学功能。分子结构的分析是化学、生物学、医学研究中的一个重要课题。质谱技术可以实现在复杂体系中对痕量物质的高灵敏度检测,被广泛应用于复杂