高通量测序数据的contigs局部拼接错误识别方法研究

来源 :哈尔滨师范大学 | 被引量 : 0次 | 上传用户：waugh9071

【摘要】

：

高通量测序技术是一种能同时对几十万到几百万条DNA分子进行序列测定的技术,因其在短时间内能够对数百万个全基因组配对端进行读取,且成本较低而被广泛采用。由于测序过程中D

【作者】

：

范佳雯

【出处】

：

哈尔滨师范大学

【发表日期】

：

2004年期

【关键词】

：

高通量测序拼接错误识别数据比对 contigs

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

高通量测序技术是一种能同时对几十万到几百万条DNA分子进行序列测定的技术,因其在短时间内能够对数百万个全基因组配对端进行读取,且成本较低而被广泛采用。由于测序过程中DNA在复制过程中有可能出现错误拼接,会对后续基因分析产生影响,针对这种现象,各生物公司都致力于优化检测错误拼接的算法。现今的识别算法主要分为两种:基于参考基因组的识别错误拼接和无参考基因组的识别错误拼接。对于一些真核生物因其无近缘基因组作为参考,测序时间较长且准确率会较低。为了解决这两个问题,本文基于无参考基因组提出并实现了一种高通量检错算法——LoMo算法。高通量测序平台读取的序列称为读长(reads),reads通过片段重叠,拼接得到的更长的序列片段称为重叠群(contigs),拼接得到的contigs往往含有许多错误,主要的错误为组装错误。本文将识别错误拼接的方法分为两个部分,分别是2k读长预报校正以及短读长的区域再识别。2k读长预报校正方法是预先通过2k读长进行一次检测比对,对可能出现拼接错误的位置进行预报,在得到预报值后,对以上位置两端进行提取并标记。读对与contigs映射出现不一致的位置证明出现拼接错误,而一致的位置中可能仍有部分拼接错误未被检测出,所以需要对于可能出现拼接错误的区域进行短读长的识别。短读长的区域再识别是指针对提取后得到contigs的特征判断识别,之后通过边界剪裁算法得到最后的区域。本算法在2k读长预报校正中充分利用了MP数据在contigs上的映射,分析过多配对距离以及方向不一致的数据预选组装错误,并根据配对末端读段减少来自预选组装错误的误报次数,能及时在装配错误的断点处断开不正确的contigs。该算法也弥补单使用PE数据读长较短导致拼接困难,从错误组装的现状和发展趋势来看,综合MP数据长插入高跨度的优点,此算法对于低复杂度DNA序列的拼接错误识别精度更高。最后通过大肠杆菌模拟数据实验,实验结果表明该方法在灵敏度和精确度上有较大的提升。

其他文献

稀土类水滑石/氧化石墨烯杂化材料的制备及其阻燃TPU的研究

作为一种多用途的工程热塑性塑料,热塑性聚氨酯弹性体(TPU)以其加工性能好、机械强度高,耐磨性突出和附着力优异的特点,在许多工业领域发挥着重要的作用,被广泛用于生产薄膜

学位

稀土元素类水滑石氧化石墨烯热塑性聚氨酯弹性体阻燃

“PE+上市公司”型并购基金模式下体检行业盈余管理研究

体检行业被认为是21世纪的阳光产业,我国的体检产业正在不断地向规模化、正规化和产业化发展。体检市场前景迅速发展的背后,其本质是一场增量博弈,各大民营体检企业都面临着

学位

“PE+上市公司”并购基金盈余管理体检行业业绩承诺

水曲柳Fm4CL家族基因克隆及功能分析

本研究以水曲柳为材料,克隆15个水曲柳4CL基因,分别命名为Fm4CL1-Fm4CL15,已上传至NCBI并获得登录号。对15个水曲柳Fm4CL基因进行了生物信息学及表达模式分析。构建了植物表

学位

水曲柳(Fraxinus mandshurica Rupr)Fm4CL生物信息学分析基因表达应拉木遗传转化

大规模风电接入的500kV变电站无功补偿配置研究

随着我国《可再生能源法》的实施以及一系列促进可再生能源发展政策的颁布,我国风电装机容量快速增长,风电场呈现出大规模发展趋势。然而,风力发电是间歇性的且调度困难,风电

学位

风力发电变电站无功补偿暂态稳定静止无功发生器

小学语文教师部编版教材适应性的现状调查

作为传播知识的载体,教材是教师在授课时的良好辅助工具。教师在教学时的重要工作之一就是清晰地向学生传达教材的内容,传达水平的高低影响到教学效果,因此教材在其中起着十分重要的作用。自2012年起,国家花费五年时间编写了部编版语文教材,并于2017年秋季正式投入使用。对于上海学生来说,在语文教学中使用了长达十几年的沪教版语文教材,开始正式退出历史舞台。部编版语文教材的出现,极大地改变了原有的沪教版的具体

学位

小学语文教师部编教材适应性

典型海相黑色页岩孔缝数字表征及物性参数计算

数字岩心是一种新兴的数值模拟方法,它在二维岩心图片基础上建立三维可视化模型,可以永久保存,方便调用,重复使用,有效的解决了传统岩石物理实验的不足。页岩油气是当前国际

学位

海相黑色页岩微观孔缝数字表征物性参数计算格子Boltzmann方法

几类分数阶反应扩散方程及其相关问题的研究

根据内容,本文主要分为三个部分:第一部分研究了一类时间分数阶扩散波方程的Cauchy问题.我们首先通过分离变量法求解出时间分数阶扩散波方程的形式解.其次利用Fourier变换和M

学位

时间分数阶方程分离变量法Fourier变换分数阶LaplaceHolder不等式Banach不动点定理

密文图像的高保真可逆信息隐藏方法研究

近年来,随着云计算领域的快速发展,越来越多的数据被外包到云端存储,然而外包存储容易导致数据隐私泄露。以图像外包为例,为了保护内容安全,图像往往被加密后上传到云端。而为了便于认证这些密文图像,云端管理员一般选择在密文图像中嵌入标记信息。当用户发出接受图像的请求时,管理员可以根据用户权限,发放给用户数据提取密钥或者图像解密密钥:对于拥有图像解密密钥的用户,他只能获取解密图像,而无法获取嵌入信息;对于拥

学位

密文图像可逆信息隐藏码分复用差值扩展图像缝补

Dzyaloshinskii-Moriya作用下自旋波透镜离轴聚焦的理论研究

本文从理论上研究了 Dzyaloshinskii-Moriya(DM)相互作用对自旋波透镜聚焦的影响。首先设计了由两个磁性薄膜之间的半圆形界面构成的自旋波透镜,通过调节界面两边的各项异性

学位

自旋波透镜DM相互作用斯涅尔定律离轴聚焦

自旋-轨道耦合调制下磁纳米结构中电子Goos-H?nchen效应

现代计算机主要以半导体为基础,利用电子的电荷编码二进制信息‘0’和‘1’,完全忽略了电子的自旋。如果能将半导体内电子的自旋利用起来,便可开启一个全新的领域——半导体

学位

半导体自旋电子学磁纳米结构自旋-轨道耦合Goos-H?nchen效应电子自旋空间分裂器

高通量测序数据的contigs局部拼接错误识别方法研究

其他学术论文