蛋白质组质谱平台实验数据仿真生成研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:flyfox521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
质谱技术已经成为蛋白质组学研究的高通量分析手段和核心工具。目前,用于质谱数据处理和分析的软件工具不断涌现,这些工具的应用使得基于质谱的蛋白质组学研究取得了可喜的成果。为了能够开发出有效而又稳健的算法和工具,需要获得标准数据集以便比较和验证软件工具的性能,但这并不是一件容易的事情。在研究中发现,经过仔细编辑注释的测试数据集并不多见,公开的标准数据集也很少。甚至为了检验算法和工具的稳健性,数据集中还需要包含不同水平的噪声数据。基于这样的应用需求和研究定位,本文提出了一套质谱实验数据仿真的方法。仿真质谱数据的阶段性目的并不是构建一个细致的质谱数据生成的物理模型,而是追求仿真数据能够比较合理地与实验数据的特征相似。质谱数据仿真以蛋白质序列为输入数据,仿真生成的内容主要有消化后得到的酶切肽段、肽段的保留时间、同位素峰的分布、电荷状态、色谱流出曲线、肽段离子质荷比信息、碎裂离子质荷比信息、背景噪声以及肽段的可检测性等。本文工作的目标是探索实现一个仿真原型系统,本文主要包括以下几个方面的内容:(1)基于马尔科夫链的蛋白质酶切概率计算。本文提出基于马尔科夫链的蛋白质酶切概率计算模型,根据候选酶切位点附近的氨基酸序列组成信息,计算候选位点的酶切概率。利用不同的数据集对模型进行了测试,结果表明,模型具有良好的预测效果和稳定性。(2)肽段色谱保留时间预测和色谱峰形仿真。对肽段色谱过程的仿真主要包括两个部分,即肽段保留时间的预测和色谱峰形的仿真。肽段保留时间的预测使用基于氨基酸保留系数的模型,同时考虑了肽段N端氨基酸和长度对肽段疏水性等因素的影响;肽段色谱峰形的仿真使用基于指数修正高斯函数模型,并且考虑色谱峰形的不对称性。模型测试表明,肽段保留时间的预测值与实验数据的相关系数为0.94,色谱峰形的拟合曲线与实验观测数据的相关系数为0.98。这表明,肽段色谱过程的仿真与实验数据具有相当的相似性。(3)电喷雾电离过程中肽段的电荷状态预测。本文根据肽段的氨基酸组成,使用线性回归和多正态分布相结合的预测模型,预测肽段的电荷状态。选择了两个不同的数据集,采用5倍交叉验证来测试模型的性能。结果表明,模型的预测精度达到96.89%,表现出良好的预测能力。在不同的数据集间进行相互预测肽段的电荷状态时,预测精度略有下降,但仍然达到88%以上,对于应用来说能够满足电荷状态预测的要求。(4)基于Logistic回归的肽段可检测性预测。本文提出了基于Logistic回归的肽段可检测性预测模型,选择了6个影响肽段可检测性的属性作为参数,使用了不同的数据集和嵌套交叉验证方法对模型性能进行测试。测试结果表明,模型的平均ROC曲线下面积为0.9466,预测精度达到0.87。另外,同其他一些文献报道的肽段可检测性方法进行了比较,结果表明,模型性能优于多数预测方法。(5)蛋白质组学质谱实验数据的仿真生成。在上述局部模型的基础上,仿真生成了与实验数据特征相似的仿真数据。质谱实验数据的仿真,主要包括仿真生成胰蛋白酶消化得到的肽段混合列表、预测肽段保留时间和仿真色谱峰流出曲线、仿真计算肽段离子同位素峰的分布、电荷状态、肽段离子质荷比信息、串联质谱碎裂离子质荷比和相应强度信息、背景噪声以及肽段的可检测性等。选择了4个不同来源的数据集,对仿真数据与实验数据进行相似性分析,通过对酶切肽段及可检测性、肽段保留时间和色谱峰形、肽段电荷状态、肽段同位素峰分布、串联质谱碎片离子信息和图谱噪声数据的相似性比较或覆盖率计算。结果表明,本文中的仿真数据能够较好地反映实验数据的特征,仿真数据能够合理地近似实验数据。使用仿真数据对现有的两种常用搜库(MASCOT和X!tandem)软件进行测试,发现对于同样的仿真数据,不同的工具软件表现出不同的性能特点;对于不同噪声水平的仿真数据,同一个搜库软件的鉴定效能会随噪声水平的增加而下降,但下降的程度有所差异。虽然仿真数据不能完全替代实验数据,但没有或缺乏标准实验数据的条件下,它们可以作为质谱实验数据的一种补充,用于对目前现存的软件工具的性能进行比较,对现有的算法进行评估。
其他文献
党的基层组织是党在社会基层组织中的战斗堡垒,是党的全部工作和战斗力的基础。基层党组织执行力的强弱直接关系到党的战斗力的强弱,影响到党的一系列方针政策在基层的落实效
协奏曲从字面意思来看是由诸多乐器一同演奏的曲子,最早是指意大利的一种声乐体裁.大约1750年开始指一个或多个乐器与管弦乐队共同演奏的器乐套曲,协奏曲逐渐流行开来,交响乐
韶关旅游资源类型多样,旅游业发展后势强劲,本文分析了韶关旅游发展现状中的问题,认为韶关旅游的发展必须以韶关特有的丰富的旅游资源为载体,在现有的基础上进行深度开发,资
认为《孙子》中有着比较系统的军事情报思想,分别论析了《孙子》的军事情报观、军事情报内容、军事情报工作原则和军事情报的识别方法。
【正】 川南地区近年来出土和发现一批画像石棺,内容和题材十分丰富,具有很高的历史艺术价值和浓郁的地方特色。其中有一部份与四川各地画像石中常见者不同,刻画的是鱼、鸟、
目的探讨新生儿高胆红素血症胆红素峰值与肾功能指标的相关性。方法选取新生儿高胆红素血症200例,按相关标准分为轻中度组(121例)和重度组(79例);选取同期健康新生儿100例作
<正>教学内容:新世纪小学数学教材5年级下册。教材简析:本单元最大的特点是"算""用"结合,在"分数混合运算(二)"中体会整数运算律在分数运算中同样适用,并解决某些实际问题。
广东"城中村"现有管理制度呈现刚性化、同质化特征,这既是城乡二元体制使然,也是管理方式不完善所致。在"城中村"建立和健全以人为中心的、有别于城市的柔性化、异质化管理模
目的探讨针灸联合推拿治疗神经根型颈椎病的临床价值。方法回顾分析笔者所在医院2018年2—12月收治的66例神经根型颈椎病患者的临床资料,观察组给予西药、针灸联合推拿治疗,
以云南松、旱冬瓜、麻栎、滇青冈滇中地区4个主要造林树种幼林为研究对象,探讨滇中地区旱季的晴天和阴天条件对其纯林与混交林光合特性的影响,分析每个树种的净光合速率(Pn)、