论文部分内容阅读
质谱技术已经成为蛋白质组学研究的高通量分析手段和核心工具。目前,用于质谱数据处理和分析的软件工具不断涌现,这些工具的应用使得基于质谱的蛋白质组学研究取得了可喜的成果。为了能够开发出有效而又稳健的算法和工具,需要获得标准数据集以便比较和验证软件工具的性能,但这并不是一件容易的事情。在研究中发现,经过仔细编辑注释的测试数据集并不多见,公开的标准数据集也很少。甚至为了检验算法和工具的稳健性,数据集中还需要包含不同水平的噪声数据。基于这样的应用需求和研究定位,本文提出了一套质谱实验数据仿真的方法。仿真质谱数据的阶段性目的并不是构建一个细致的质谱数据生成的物理模型,而是追求仿真数据能够比较合理地与实验数据的特征相似。质谱数据仿真以蛋白质序列为输入数据,仿真生成的内容主要有消化后得到的酶切肽段、肽段的保留时间、同位素峰的分布、电荷状态、色谱流出曲线、肽段离子质荷比信息、碎裂离子质荷比信息、背景噪声以及肽段的可检测性等。本文工作的目标是探索实现一个仿真原型系统,本文主要包括以下几个方面的内容:(1)基于马尔科夫链的蛋白质酶切概率计算。本文提出基于马尔科夫链的蛋白质酶切概率计算模型,根据候选酶切位点附近的氨基酸序列组成信息,计算候选位点的酶切概率。利用不同的数据集对模型进行了测试,结果表明,模型具有良好的预测效果和稳定性。(2)肽段色谱保留时间预测和色谱峰形仿真。对肽段色谱过程的仿真主要包括两个部分,即肽段保留时间的预测和色谱峰形的仿真。肽段保留时间的预测使用基于氨基酸保留系数的模型,同时考虑了肽段N端氨基酸和长度对肽段疏水性等因素的影响;肽段色谱峰形的仿真使用基于指数修正高斯函数模型,并且考虑色谱峰形的不对称性。模型测试表明,肽段保留时间的预测值与实验数据的相关系数为0.94,色谱峰形的拟合曲线与实验观测数据的相关系数为0.98。这表明,肽段色谱过程的仿真与实验数据具有相当的相似性。(3)电喷雾电离过程中肽段的电荷状态预测。本文根据肽段的氨基酸组成,使用线性回归和多正态分布相结合的预测模型,预测肽段的电荷状态。选择了两个不同的数据集,采用5倍交叉验证来测试模型的性能。结果表明,模型的预测精度达到96.89%,表现出良好的预测能力。在不同的数据集间进行相互预测肽段的电荷状态时,预测精度略有下降,但仍然达到88%以上,对于应用来说能够满足电荷状态预测的要求。(4)基于Logistic回归的肽段可检测性预测。本文提出了基于Logistic回归的肽段可检测性预测模型,选择了6个影响肽段可检测性的属性作为参数,使用了不同的数据集和嵌套交叉验证方法对模型性能进行测试。测试结果表明,模型的平均ROC曲线下面积为0.9466,预测精度达到0.87。另外,同其他一些文献报道的肽段可检测性方法进行了比较,结果表明,模型性能优于多数预测方法。(5)蛋白质组学质谱实验数据的仿真生成。在上述局部模型的基础上,仿真生成了与实验数据特征相似的仿真数据。质谱实验数据的仿真,主要包括仿真生成胰蛋白酶消化得到的肽段混合列表、预测肽段保留时间和仿真色谱峰流出曲线、仿真计算肽段离子同位素峰的分布、电荷状态、肽段离子质荷比信息、串联质谱碎裂离子质荷比和相应强度信息、背景噪声以及肽段的可检测性等。选择了4个不同来源的数据集,对仿真数据与实验数据进行相似性分析,通过对酶切肽段及可检测性、肽段保留时间和色谱峰形、肽段电荷状态、肽段同位素峰分布、串联质谱碎片离子信息和图谱噪声数据的相似性比较或覆盖率计算。结果表明,本文中的仿真数据能够较好地反映实验数据的特征,仿真数据能够合理地近似实验数据。使用仿真数据对现有的两种常用搜库(MASCOT和X!tandem)软件进行测试,发现对于同样的仿真数据,不同的工具软件表现出不同的性能特点;对于不同噪声水平的仿真数据,同一个搜库软件的鉴定效能会随噪声水平的增加而下降,但下降的程度有所差异。虽然仿真数据不能完全替代实验数据,但没有或缺乏标准实验数据的条件下,它们可以作为质谱实验数据的一种补充,用于对目前现存的软件工具的性能进行比较,对现有的算法进行评估。