【摘 要】
:
高通量测序技术是一种能同时对几十万到几百万条DNA分子进行序列测定的技术,因其在短时间内能够对数百万个全基因组配对端进行读取,且成本较低而被广泛采用。由于测序过程中D
论文部分内容阅读
高通量测序技术是一种能同时对几十万到几百万条DNA分子进行序列测定的技术,因其在短时间内能够对数百万个全基因组配对端进行读取,且成本较低而被广泛采用。由于测序过程中DNA在复制过程中有可能出现错误拼接,会对后续基因分析产生影响,针对这种现象,各生物公司都致力于优化检测错误拼接的算法。现今的识别算法主要分为两种:基于参考基因组的识别错误拼接和无参考基因组的识别错误拼接。对于一些真核生物因其无近缘基因组作为参考,测序时间较长且准确率会较低。为了解决这两个问题,本文基于无参考基因组提出并实现了一种高通量检错算法——LoMo算法。高通量测序平台读取的序列称为读长(reads),reads通过片段重叠,拼接得到的更长的序列片段称为重叠群(contigs),拼接得到的contigs往往含有许多错误,主要的错误为组装错误。本文将识别错误拼接的方法分为两个部分,分别是2k读长预报校正以及短读长的区域再识别。2k读长预报校正方法是预先通过2k读长进行一次检测比对,对可能出现拼接错误的位置进行预报,在得到预报值后,对以上位置两端进行提取并标记。读对与contigs映射出现不一致的位置证明出现拼接错误,而一致的位置中可能仍有部分拼接错误未被检测出,所以需要对于可能出现拼接错误的区域进行短读长的识别。短读长的区域再识别是指针对提取后得到contigs的特征判断识别,之后通过边界剪裁算法得到最后的区域。本算法在2k读长预报校正中充分利用了MP数据在contigs上的映射,分析过多配对距离以及方向不一致的数据预选组装错误,并根据配对末端读段减少来自预选组装错误的误报次数,能及时在装配错误的断点处断开不正确的contigs。该算法也弥补单使用PE数据读长较短导致拼接困难,从错误组装的现状和发展趋势来看,综合MP数据长插入高跨度的优点,此算法对于低复杂度DNA序列的拼接错误识别精度更高。最后通过大肠杆菌模拟数据实验,实验结果表明该方法在灵敏度和精确度上有较大的提升。
其他文献
作为一种多用途的工程热塑性塑料,热塑性聚氨酯弹性体(TPU)以其加工性能好、机械强度高,耐磨性突出和附着力优异的特点,在许多工业领域发挥着重要的作用,被广泛用于生产薄膜
体检行业被认为是21世纪的阳光产业,我国的体检产业正在不断地向规模化、正规化和产业化发展。体检市场前景迅速发展的背后,其本质是一场增量博弈,各大民营体检企业都面临着
本研究以水曲柳为材料,克隆15个水曲柳4CL基因,分别命名为Fm4CL1-Fm4CL15,已上传至NCBI并获得登录号。对15个水曲柳Fm4CL基因进行了生物信息学及表达模式分析。构建了植物表
随着我国《可再生能源法》的实施以及一系列促进可再生能源发展政策的颁布,我国风电装机容量快速增长,风电场呈现出大规模发展趋势。然而,风力发电是间歇性的且调度困难,风电
作为传播知识的载体,教材是教师在授课时的良好辅助工具。教师在教学时的重要工作之一就是清晰地向学生传达教材的内容,传达水平的高低影响到教学效果,因此教材在其中起着十分重要的作用。自2012年起,国家花费五年时间编写了部编版语文教材,并于2017年秋季正式投入使用。对于上海学生来说,在语文教学中使用了长达十几年的沪教版语文教材,开始正式退出历史舞台。部编版语文教材的出现,极大地改变了原有的沪教版的具体
数字岩心是一种新兴的数值模拟方法,它在二维岩心图片基础上建立三维可视化模型,可以永久保存,方便调用,重复使用,有效的解决了传统岩石物理实验的不足。页岩油气是当前国际
根据内容,本文主要分为三个部分:第一部分研究了一类时间分数阶扩散波方程的Cauchy问题.我们首先通过分离变量法求解出时间分数阶扩散波方程的形式解.其次利用Fourier变换和M
近年来,随着云计算领域的快速发展,越来越多的数据被外包到云端存储,然而外包存储容易导致数据隐私泄露。以图像外包为例,为了保护内容安全,图像往往被加密后上传到云端。而为了便于认证这些密文图像,云端管理员一般选择在密文图像中嵌入标记信息。当用户发出接受图像的请求时,管理员可以根据用户权限,发放给用户数据提取密钥或者图像解密密钥:对于拥有图像解密密钥的用户,他只能获取解密图像,而无法获取嵌入信息;对于拥
本文从理论上研究了 Dzyaloshinskii-Moriya(DM)相互作用对自旋波透镜聚焦的影响。首先设计了由两个磁性薄膜之间的半圆形界面构成的自旋波透镜,通过调节界面两边的各项异性
现代计算机主要以半导体为基础,利用电子的电荷编码二进制信息‘0’和‘1’,完全忽略了电子的自旋。如果能将半导体内电子的自旋利用起来,便可开启一个全新的领域——半导体