传染病病原体数据库构建及基于深度学习的病原体序列分类

来源 :军事科学院 | 被引量 : 0次 | 上传用户:byfa21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传染病是由病原体引发的,可直接或间接地从一个人传播到另一个人,它已夺去不计其数的生命,威胁着全人类的生命健康安全。据柳叶刀杂志的重要研究显示,2017年传染病、孕产妇和新生儿症状以及营养状况共导致全球一千多万人死亡,占总死亡人数的18.57%,尤其是在某些中低收入国家,传染病造成的死亡占主导地位,比如在肯尼亚,传染病引起的腹泻是主要的死亡原因。长久以来,传染病一直是笼罩着我们的乌云,时时刻刻威胁着我们的生命健康安全,而新发和突发传染病是最值得关注的传染病领域之一。新发和突发传染病是指新出现和突然重新出现的传染性疾病。进入21世纪以来,医疗卫生条件大幅提高,但新发和突发传染病还是不断出现,如2002年的SARS、2009年的H1N1大流感、2012年的MERS、2014年的埃博拉及2019新型冠状病毒肺炎,这些新发和突发传染病不仅直接造成大量人员伤亡,还间接地严重影响经济发展和社会稳定。虽然医疗卫生领域不断发展,传染病的鉴定、治疗和疫苗开发方面已取得巨大成就,但是随着全球一体化进程加快,人口流动性不断增强,全球贸易往来不断增加,新发和突发传染病的传播风险大大提高,传播速度大大加快,因此突发和新发传染病的监测和防控已经成为全世界需要共同应对的问题。传染病通过病原体传播,病原体是指造成人或动植物感染传染病的微生物或其他媒介,如病毒、细菌、真菌、原生动物、寄生虫等。病原体具有种类多样、中间宿主多样、传播途径多样、变异进化速度快等特点,也因为这些特点使得传染病难以被消灭。在过去的几十年里,最受关注的病原体是病毒,如HIV、SARS和埃博拉。据估计,在目前已知病原体中,病毒占比高达44%,此外由于病毒复制周期短、突变率高等特点,病毒性传染病已成为近年来主要的新发和突发传染病;细菌和立克次氏体占比38%,引起30%的新发传染病;此外许多细菌性传染病也有卷土重来的态势,如鼠疫和霍乱,而抗生素耐药性的出现和扩散使得致病菌难以被消灭。目前病原体种类日益繁多,变异进化速度逐渐加快,病原体相关资源的收集和整合分析尤为重要。本研究开发了传染病病原体基因组变异进化数据库(Pathogen Database of Infectious Diseases,PDID)。该数据库包括55种传染病、59种病原体基因组数据、抗生素耐药性数据和毒力因子数据,涵盖了《中华人民共和国传染病防治法》(2013年修订版)规定的甲乙丙三类传染病,共39种,同时提供9种基因组变异进化在线分析工具。PDID数据库通过搜集与整理传染病病原体基因组数据及其相关数据,为科研机构,组织和个人提供数据搜索、下载、上传、分析等功能,并支持对传染病病原体基因组变异进化的研究,同时PDID数据库可以为新发突发传染病提供平台支撑。该数据库通过整合传染病病原体多种相关资源,旨在为科研工作者提供界面友好、数据可用、方便快捷的综合型数据库和一站式分析平台,推动传染病病原体研究进程,保护人类生命健康安全。此外除了病原体资源的收集整合,病原体的分离鉴定是临床治疗和相关疫苗特效药研发的重要前提。目前主要有四种鉴定方式:分离培养,显微镜检查,抗原成分检测和分子生物学核酸鉴定。分离培养和显微镜检查耗时耗力、敏感性低;抗原成分检测假阴性偏高;相比较而言,目前常用的核酸检测鉴定,实时逆转录聚合酶链式反应(real-time reverse-transcription polymerase chain reaction,RT-PCR)扩增方法具有速度快、敏感度高、特异性高等优点,但也存在缺点,如无法对新型和高变异病毒株进行检测,对引物要求高,需要实验人员掌握相应实验操作技能等。因此亟需开发一种精准、高效和快速的病原体检测鉴定技术。深度学习(Deep Learning,DL)是机器学习(Machine Learning,ML)的子领域之一,它通过模仿人脑处理信息和制定决策的过程,实现类人工智能(Artificial Intelligence,AI)。近年来,数据的快速发展和积累使深度学习逐渐成熟,目前深度学习已在很多领域大放异彩,如智能翻译、无人驾驶、智能助手、人脸识别、个性化推荐等。尤其在生物医学领域,高通量测序技术迅猛发展使生物医学数据呈指数增长,深度学习也得到广泛应用,主要有以下三个方面:一、生物医学图像的识别与分类,如利用卷积神经网络(Convolutional Neural Networks,CNN)对脑肿瘤图像进行分割、对胰腺的CT图进行分割及结肠癌图像的识别与分类。二、蛋白质组数据分析与蛋白质结构预测,如利用CNN预测蛋白质有序或无序区域和蛋白质结构。三、基因组测序数据的分析,如利用循环神经网络(Recurrent Neural Network,RNN)预测转录因子结合位点及预测DNA剪切区域等。但是目前还没有利用神经网络模型对传染病病原体基因组序列进行识别与分类的研究。冠状病毒(coronavirus,Co V)是一类具有包膜的单股正链RNA病毒,该病毒在哺乳动物和鸟类中引发多种疾病。2002年的严重急性呼吸综合征冠状病毒(SARS-Co V),2012年的中东呼吸综合症冠状病毒(MERS-Co V)及2019年的新型冠状病毒(2019-n Co V)对国民健康、社会稳定和经济发展产生巨大的负面影响。此外由于病毒性新发传染病病原体基因组常存在变异和进化,在爆发初期,传统RT-PCR方法由于没有可用探针,无法发挥作用,只能依靠实验室培养观察和基因组测序数据进行生物信息学分析,但培养和分析过程时间往往过长。如果能在病原体分离之前先给出预判,就可以为病原体的分离指出方向,极大地提高病原体分离效率,同时也有利于快速锁定目标病原体类型,测出病原体全长基因组序列后快速设计出病原体的PCR引物,为新发传染病疫情防控争取宝贵的时间。为了提高对样本高通量测序数据中新型和高变异株冠状病毒序列的检测效率和性能,本研究通过搜集所有冠状病毒完整的全基因组序列和人参考基因组序列,制定个性化的数据预处理策略,最终得到不包含2019-n Co V的训练集、验证集和测试集,以及只包含2019-n Co V的独立验证集,同时将所有数据集转换为易于生成和读取的格式,再利用独热向量对核酸碱基进行编码将核酸序列片段转换为稀疏矩阵,然后设计循环神经网络中基于门控循环单元(Gated Recurrent Unit,GRU)模型结构,利用训练集对GRU模型进行训练,验证集对GRU模型训练过程的效果进行验证,测试集对训练完毕的GRU模型进行效果和性能测试,最终利用独立测试集对GRU模型与Kraken、Megablast和Bowtie2等生物信息学比对分类工具在性能和效果上进行对比。结果显示,GRU模型在敏感性方面具有巨大的优势,在计算速度方面强于Kraken和Megablast,逊于Bowtie2。但GRU模型的性能远远优于Bowtie2,敏感性大幅领先于Megablast,因此,综合考虑性能和计算速度,GRU是四种方法中最好的。本文开发了一个快速检测新发和高变异株冠状病毒序列的工具。该工具与传统生物信息学工具相比,可以缩短计算时间、降低计算资源要求、避免下载参考基因组。该工具对验证集和测试集的准确率、敏感性和特异性均达到99%以上,对2019-n Co V独立测试集的敏感性也达到99.81%,说明该模型具有很好的泛化能力。
其他文献
研究目的:尽管由国际预后评分系统(International Prognostic Scoring System,IPSS)定义的较低危骨髓增生异常综合征(myelodysplastic syndromes,MDS)患者总体上预后良好,但
随着移动通信技术的快速发展,智能终端功能越来越丰富,逐渐取代传统计算机称为新一代的数据处理平台。Android系统是智能终端系统中占比最大最受欢迎的系统,而且正逐渐开始影
社会主义教育运动是我国20世纪60年代初开展的一场以“反修防修”为宗旨的政治运动,运动以解决当时农村广泛存在的干部作风问题为初衷,但在多方因素的影响下,最终走向了“左
目的:贝尔麻痹(BP)是一种特发性周围面神经瘫痪,大部分患者面神经功能可获得完全恢复,但仍有一部分患者在积极药物治疗后仍有可能遗留面瘫或出现面肌痉挛。在贝尔麻痹起病早
背景帕金森病(Parkinson’s Disease,PD)是一种常见的神经系统退行性疾病。目前该病的病因与发病机制尚不完全清楚,多数学者认为PD的发生是遗传与环境因素相互作用的结果,其
本文研究了图的几类能量的界.分别为双星图的拉普拉斯能量与拟拉普拉斯能量的上界,以及一般图的无符号拉普拉斯能量的界,图的距离能量、距离拉普拉斯能量以及距离无符号拉普
地震体可视化作为石油勘探中非常重要的技术,辅助该领域人员进行地质的探索分析。其中三维层面模型作为关键的分析对象,支持地质层位的提取、显示和预测等工作。而大规模地震体通常需要进行多分辨率可视化,使得贯穿于整个体空间中的层位也要面对分块组织的数据空间。如何对层位进行交互式地快速提取与可视化成为亟待解决的问题。本文面向普通计算平台,针对大规模多分辨率地震体,对于给定网格的层位提出了基于多层级优化的快速生
随着社会的不断发展,因环境保护而产生的清洁能源需求越来越大。天然气作为清洁能源之一,国内近两年的需求量增长速度超过20%,发展潜力巨大。经过多年的勘探,三湖坳陷北斜坡蕴含丰富的天然气,且以生物成因天然气为主,由于其埋藏深度浅、单井产能高、经济效益好,成为国内天然气勘探的主战场之一。由于三湖坳陷北斜坡的天然气为生物成因气,气柱高度较大,导致地震剖面上存在大量的气囱现象,而气囱范围内地震波成像效果差、
石墨烯(Graphene)是由碳原子构成的似蜂窝状的片层晶格结构,是组成其他碳族材料的基本构型。由于其具备优异的热、光、磁、电以及力学特性,近年来有关石墨烯结构型与功能型聚
疾病的发生通常都伴随着相关分子、细胞以及组织的异变,在疾病初期往往可以观察到生物组织异变。从组织异变的发现到确定是否为疾病则需要科学的诊断分析,面对疾病,早发现早确诊早治疗,是最好的处理方式。现如今,拉曼光谱技术已经在分析生物组织和样品中发挥越来越重要的作用,从分子水平上判别组织异变从而诊断疾病将成为一种新的医学诊断方法。本文将实验论证拉曼光谱用于探测和区分结直肠异变及乳腺癌的能力;设计一款可内窥