【摘 要】
:
纳米孔测序技术因其超长读长的优势在全基因组测序及组装等研究领域备受关注,其核心是利用碱基序列识别算法解码测序电信号以识别被测DNA/RNA分子的碱基序列。受到测序噪音、均聚物、碱基修饰等影响,目前碱基序列识别的原始错误率约10%~15%。且大多数碱基序列识别算法采用基于循环神经网络(Recurrent neural network,RNN)的模型进行碱基识别,受循环结构影响,识别速度较慢。为进一步
论文部分内容阅读
纳米孔测序技术因其超长读长的优势在全基因组测序及组装等研究领域备受关注,其核心是利用碱基序列识别算法解码测序电信号以识别被测DNA/RNA分子的碱基序列。受到测序噪音、均聚物、碱基修饰等影响,目前碱基序列识别的原始错误率约10%~15%。且大多数碱基序列识别算法采用基于循环神经网络(Recurrent neural network,RNN)的模型进行碱基识别,受循环结构影响,识别速度较慢。为进一步提升碱基序列识别的准确率和速度,本文提出了以基于时序卷积网络(Temporal convolutional network,TCN)的深度模型为核心的模块化碱基序列识别算法。主要工作如下:首先,本文阐述了纳米孔测序碱基序列识别的研究背景、意义与现状,介绍了代表性的碱基序列识别软件,对比分析了各个软件采用的识别算法的特点。然后,针对基于RNN的算法中存在的识别速度慢和受冗余电信号干扰问题,本文提出了一个模块化的碱基序列识别算法,其核心为基于深度神经网络的碱基序列识别模型。本文基于TCN和连接时间解码器(Connectionisttemporal classification,CTC)设计了端到端的碱基序列识别模型CausalCall。CausalCall利用膨胀的因果卷积建模电信号的时序特征,通过卷积运算提升识别速度,通过控制卷积感受野保证模型在决策时仅关注输入电信号的有效时序范围,以减少冗余信息干扰。基于此算法,本文实现了一个简单易用的碱基序列识别软件。最后,本文利用多个物种的纳米孔测序数据对本文算法进行了评估。通过与其他碱基序列识别软件的对比,证明本文算法在碱基序列识别任务中的准确性和高效性。综上,本文的工作成果是:(1)综合分析纳米孔测序数据和现有碱基序列识别算法的特点,提出了以端到端深度神经网络模型为核心的模块化碱基序列识别算法。利用TCN的时序建模能力强、卷积感受野可控和计算速度快的优点,结合CTC机制,设计了碱基序列识别模型CausalCall,该模型能有效提升碱基序列识别的准确率和速度;(2)基于提出的算法,实现了一个简单易用的碱基序列识别软件;(3)本文利用多物种纳米孔测序数据对所提算法进行了评估。结果表明本文算法具有较高的碱基识别准确率和速度,其识别序列能被组装成高质量基因组,在基因组研究中具有较大的实用价值。
其他文献
如今图像监控系统在针对人员寻找和抓捕中起到了越来越重要的作用。为了得到抓拍画面和降低画面传输延迟,边缘端人脸识别技术成为了公共安全监控研究热点。然而目前该技术在应用时存在如下不足:边缘设备运行速度慢、算法模型移植性差、设备产生的大量数据对网络带宽和安防系统服务器存储造成巨大压力。针对上述问题,本文一方面研究了一种改进型的多任务卷积神经网络(MTCNN,Multi-task convolutiona
近年来,深度学习已成为人工智能领域的一个研究热点,其在车道线检测任务中的应用更是得到了车企和研究者们的热切关注和大量研究。虽然深度学习已成功应用于各大领域中,但将其应用于地铁轨道线检测与识别的研究却少之又少。车道线检测与识别与轨道线检测和识别的场景有些许不同,例如地铁行驶时所处环境比较复杂,其光照条件特别黑暗,所获取的图像噪声往往过大且轨道线易与背景图像相类似而难以从中检测与识别出轨道线的位置。传
2012年中央出台了“八项规定”,对于公款吃喝及公款消费提出了明确的限制。我国的白酒行业由此转入了一个深度调整期,白酒行业销售量、营业收入、净利润都受到了很大影响。部分白酒企业甚至是倒闭破产,就连有的上市公司也因净利润大幅下降面临被ST的风险。但是白酒行业作为一个比较好的赛道,也是中国人离不开的消费品,这次的调整期并没有持续很长时间。从2016年开始,白酒行业就有了复苏的迹象,整个行业的销售量、营
奥氏体不锈钢焊缝是氢能储输系统中重要的连接结构,其长期服役在临氢环境中会出现塑性损减、疲劳裂纹扩展速率加快等氢脆现象,严重危害氢能储输系统的运行安全。因此,为保障氢能储输系统的安全运行,研究奥氏体不锈钢焊缝的氢脆行为十分必要。本文以304奥氏体不锈钢熔化极钨极氩弧焊(MIG)焊缝与钨极氩弧焊(TIG)焊缝为研究对象,采用宏观力学性能评价、电化学充氢、微观表征等方法研究焊接工艺对304不锈钢焊缝微观
大豆是世界上重要的粮食和油料作物,是高质量人类蛋白质的主要来源,植物表型组学是研究植物的生长、表现和组成的科学。本文以大豆植株为对象进行研究,结合植物三维重建相关领域的知识理论和方法,分别从三维扫描点云和多视角大豆植株图像出发重建豆株骨架和包含语义信息的豆株的叶片,实现了对于大豆植株的表型的精确鉴定。本文主要工作如下:(1)提出一种基于骨架的大豆植株点云三维重建方法。该过程针对Kinect V2直
动态全局光照效果是计算机图形学领域中的一个重要研究分支。渲染动态全局光照效果不仅需要模拟光线在场景中的传播过程,同时还要处理场景变化带来的影响,所以整体光照计算的复杂度较高。近年来,随着硬件技术的快速发展,如何实时渲染动态全局光照效果是游戏行业的研究热点。该领域的研究结果能够极大地提升游戏画面的真实感,成为游戏产品竞争的制高点,具有非常广泛的应用价值。全局漫反射光照效果是全局光照效果的重要组成部分
传统村落的空间环境反映了当地的传统文化、建筑艺术和民俗风情,具有很高的活态历史文化价值。而我国传统村落数量庞大,传统村落保护利用问题不容忽视,已有保护利用规划的实施效果总体而言却不尽人意,不同村落保护利用现状参差不齐。为了合理地进行传统村落的保护利用规划的编制和修正规划实施中的问题,有必要对传统村落保护利用规划实施过程的空间环境变化规律进行探究,对不同传统村落空间环境保护利用现状进行分析,找出其规
传统的玻纤滤材性能研究主要是基于实验方法,这种研究方法不仅成本高、周期长且受限于原材料的种类。近年来计算机模拟方法受到越来越多学者的关注,但大多数研究中的滤材模型并没有以实际的纤维滤材为基础,对纤维模型有太多的简化,模拟结果并不能真实反映出实际滤材的过滤性能。为了解决上述问题,本文以实际的玻璃纤维及玻纤滤材为基础,开展了玻纤滤材性能的数值模拟研究工作,对亚微米级玻璃纤维的直径表征、玻纤滤材的模型建
车辆重识别(Vehicle Re-identification,简称Vehicle Re-ID)任务作为规模化车辆识别、智能交通以及智慧城市的核心基础技术,在维护社会公共安全方面发挥着不可或缺的积极作用。该任务旨在快速检索、定位和跟踪监控摄像机网络中的目标车辆,通过不同的摄像头视图来识别相同的车辆,在给定一张目标查询图的情况下,在候选集数据库中查找与目标车辆属于同一ID的车辆。在目前的车辆重识别研
随着社会经济发展,我国住宅产业有了显著发展,居民的居住需求也不断变化。近年来,在人口老龄化加剧、房价高涨、二胎政策开放的背景下,我国居民的多代共同居住需求不断提高,同时住宅多样性设计和适应性设计也成为重要的议题。基于这些现象,对三代居户型适应性设计进行研究,希望能为三代居户型设计提供一些理论借鉴,促进我国住宅产业发展,提高我国居民的居住生活水平。首先,通过文献研究和案例分析,梳理国内外三代居住宅设