【摘 要】
:
基因变异鉴定(variant calling)是生物信息学中一项重要的研究,而基因变异中的单核苷多态性位点(Single Nucleotide Polymorphism,SNP)和InDel(Insertion and Deletion)是基因变异中非常常见的变异类型。其随着测序技术的发展也一直在不断深入研究,现有的基因变异鉴定技术在第二代测序数据上表现较为成熟,但在近些年兴起的第三代测序数据上几
论文部分内容阅读
基因变异鉴定(variant calling)是生物信息学中一项重要的研究,而基因变异中的单核苷多态性位点(Single Nucleotide Polymorphism,SNP)和InDel(Insertion and Deletion)是基因变异中非常常见的变异类型。其随着测序技术的发展也一直在不断深入研究,现有的基因变异鉴定技术在第二代测序数据上表现较为成熟,但在近些年兴起的第三代测序数据上几乎没有较好的效果,面临着准确率有待提升的困境。同时深度学习近年来发展尤其迅速,其在图像分类上效果显著,并且能够自动地从图像中抽取出用于分类的特征。本文研究了使用深度学习技术在基因SNP和InDel变异鉴定分析中的应用,将基因变异鉴定看作是一个多分类回归问题,采用卷积神经网络对基因数据进行并行变异鉴定。实验结果表明,本文设计的实验算法DeepVCall在第三代基因测序数据PacBio数据集上比其他深度学习方法有着更高的准确率,同时能够兼顾第二代测序数据的变异鉴定效果,实现了第二代测序数据集和第三代测序数据集通用的快速鉴定方法。本文具体工作如下:(1)DeepVCall的基因数据编码算法设计,基因数据与其他数据不同之处在于其特征的多样化,本文通过对比分析选取基因数据中最关键的特征,通过One-Hot编码和CIGAR字符串矫正read序列信息,将指定特征转换为卷积神经网络输入的张量格式。(2)针对上述所产生的特征张量,设计DeepVCall适用于本文基因数据集的卷积神经网络。针对基因数据特征,采用均方误差和交叉熵损失相结合定义损失函数。提出DeepVcall五层网络模型,采用分层输出;并行训练采用测序质量优化参数更新方法,加快DeepVCall训练速度。(3)使用DeepVCall对同一数据集采取三种特征组合策略进行变异鉴定效果对比,选出最佳特征组合策略。使用Deep VCall与同步、异步更新方法进行对比实验,实验表明DeepVCall训练速度更快。对于面向基因数据特征的卷积神经网络最佳采用特征组合策略进行实验,对比分析DeepVCall与DeepVariant、Scotch和GATK的鉴定效果,验证其在第三代测序数据集PacBio数据集上的应用效果。采用单数据集实验、多数据集交叉实验等实验对DeepVCall性能进行分析。实验表明,DeepVCall在PacBio数据集上准确率上优于其他深度学习方法,在Illumina数据集上效果与其他深度学习方法相当,并且通过交叉实验结果表明DeepVCall在PacBio数据集和Illumina数据集上具有良好的通用性和泛化能力。
其他文献
肾脏疾病在现代社会中已成为全球发生率第四高的重要疾病,在我国更有超过11%的人口属于不同程度的肾脏病患者,全球每年超过百万肾脏患者发展成为肾衰竭、肾肿瘤等恶性病变。肾脏病变的早期筛查对于及时诊断和控制病情发展有着重要作用,而肾脏疾病的临床诊断十分依赖于彩超和CT等医学影像检查方式以及医生的专业水平。但在我国,医生以及医疗设备等医疗资源随地域分布严重不均,同时医生需要分析和处理大量的影像数据,人工阅
预后(Prognosis)指对疾病可能的进程及结果的估计。癌症基因组图谱(The Cancer Genome Atlas,TCGA)等数据库的出现为研究人员提供大量丰富且权威的数据,推动了基于基因组学数据的癌症预后预测研究。当前,癌症预后预测的研究成果主要集中于BRCA、NSCLC、GBM等样本数较多的疾病类型;预后预测模型更多从生物学角度对基因特征进行分析,缺乏从计算角度分析基因特征进而发现潜在
光学相干层析(Optical Coherence Tomography,OCT)是一种利用光的干涉现象对样本进行断层扫描的成像技术,因其对人体无伤,成像深度大,成像分辨率高,对生物组织的层析能力强等特性而被广泛地应用于医学诊断和辅助治疗之中,尤其在眼科前景广阔。但是,目前主要有两个问题阻碍了OCT技术的进一步发展:1)低相干干涉成像引入的散斑噪声问题。OCT成像系统采用宽带光源,在进行低相干干涉成
单个无人机的应用场景相较于多无人机来讲局限性较强、任务执行效率较低,多无人机协同具有更好的稳定性、适应性,因此多无人机协同技术的研究显得十分关键。而多无人机的路径规划是无人机协同技术的基石。Dijkstra算法和A*算法是路径规划技术的经典算法。此类算法对于已知环境能够规划出合理路径,但是对于未知环境,算法表现则不太令人满意。一些智能优化算法,如蚁群算法、粒子群算法、遗传算法等,也被用在无人机的路
随着工业互联网建设的大力推进,工业控制系统网络逐渐从封闭式向开放式转变,但工控安全系统的发展相对而言却有些落后。近年来,工业控制领域的攻击事件逐年上升。由于工业控制系统重点应用于许多与民生紧密相关的领域,一旦这些领域的工业控制系统遭到攻击,将会产生非常恶劣的影响。而入侵检测是一种可以保护系统安全的有效措施,可以有效地发现安全威胁。因此,近年来,针对工业控制系统的入侵检测受到了相关从业人员和研究学者
文本分类任务属于自然语言处理(Natural Language Processing,NLP)领域中的一个基础且十分重要的子任务。该任务旨在为一段文本打上对应的标签。比如对新闻文本数据进行主题分类,对电商平台的用户评论进行星级预测等。随着互联网数据的爆发式增长,如何对这些庞杂的文本数据进行分类已成为了一个非常重要的研究方向。目前最常见的文本分类方法主要都是基于深度学习模型的,其中主要包括卷积神经网
沉浸式投影被广泛运用到人机交互、增强现实与虚拟现实等领域。为了达到真实的视觉体验,通常采用包围式投影屏幕和多投影技术。由于投影屏幕的非平面特性及投影仪数目众多,投影光在传播过程中产生了复杂的互反射效应,导致投影画面亮度冗余,质量退化,干扰了用户的沉浸感体验,甚至对虚拟现实等系统的实际使用造成严重阻碍。因此,互反射补偿对实现投影图像的高质量重现具有重要的实用价值。传统互反射补偿方法通常采用多模块解决
推荐系统通过对海量的用户与物品间的交互数据进行处理,向用户进行个性化推荐。会话推荐是推荐系统中的一个重要分支,旨在解决匿名用户的推荐结果不准确的问题。会话推荐能够对用户进行实时性推荐,仅根据用户的历史点击操作就能为用户进行相关推荐,给用户带来良好的使用体验。目前,会话推荐方法主要分为三类,分别是基于传统机器学习的方法、基于深度学习的方法以及基于图神经网络的方法。通过对这三类方法的分析和总结,发现现
卷积神经网络在多种场景中成为了优秀的解决方案。在移动终端设备上部署卷积神经网络产品已具备现实需求,如短视频特效、智能无人机、智能相机和野外草本识别等场景。特别地,无网、弱网或禁网的隧道、洞穴和军工等场景也具有硬需求。卷积神经网络产品需要对大量的浮点数进行存储和计算,对存储器、算力、功耗等资源需求较高。因此,为了在移动终端上部署卷积神经网络产品,需要对资源消耗进行优化。本文内容是研究如何将卷积神经网
随着社会信息化程度的提高,图像采集设备也得到了大量地普及,由此数字图像已经成为了重要的信息载体。在现实应用中,由于成像系统自身存在缺陷,以及考虑到网络传输时延和存储空间等限制,数字图像通常以较低分辨率的形式存在。图像超分辨率就是对较低分辨率图像进行复原,其不但能改善图像在视觉层面的感知质量,又可以为后续的高级计算机视觉任务打下基础,因此也是底层视觉任务中一直都很活跃的话题。近年来,基于深度学习的单