基于词向量的流感病毒宿主预测和病毒序列鉴定

来源 :湖南大学 | 被引量 : 0次 | 上传用户:jerry1121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,新发突发传染病对于人类社会的威胁越来越大。随着基因组学技术,信息技术,人工智能的迅速发展,融合多个学科的生物信息学方法和技术在传染病防控领域发挥着越来越重要的作用。本文通过对自然语言和生物序列的类比,将自然语言处理中的词向量表示法应用于生物序列的特征提取和表示,继而基于生物序列的词向量表示,研究了 A型流感病毒的宿主预测以及病毒序列的鉴定。本文的主要工作如下:(1)提出了一种基于词向量的A型流感病毒宿主预测的计算方法。流感病毒不仅对人类健康造成极大威胁,而且给人类社会造成了巨大的经济损失。快速确定流感病毒的宿主将有助于评估新发突发流感病毒的潜在风险。本工作通过类比自然语言与生物序列,将自然语言处理中的词向量方法应用于A型流感病毒宿主预测。具体来说,本文采取一种简单的生物序列分词方法,将A型流感病毒的DNA序列和蛋白质序列使用自然语言处理工具word2vec表示成实值向量,进而基于这些序列的特征向量表示,构建分类模型预测A型流感病毒的禽、人、猪三类宿主。实验结果表明,该计算方法对A型流感病毒宿主预测有很好的效果,其中,建立在表面蛋白HA和NA(或它们的基因)上的模型效果要优于建立在内部蛋白(或它们的基因)上的模型效果。对禽、人、猪三种流感病毒宿主的最高预测准确率分别达到了 98.9%、97.9%、91.9%。同时,本文将基于词向量方法的宿主预测效果与基于同源性搜索以及基于k-mer方法的宿主预测效果进行了比较分析,结果表明:基于词向量的方法和基于k-mer的方法在整体上基本一致,基于词向量的方法整体上要优于同源性搜索方法。(2)提出了一种基于词向量的病毒序列鉴定的方法。病毒是地球上多样性最大的物种,病毒宏基因组学研究的第一步是鉴定出病毒基因组序列。传统的鉴定病毒序列的计算方法主要是同源性搜索,它是基于待鉴定序列与已知序列数据库中的序列的相似性来进行的,当病毒变异较多或者出现新病毒时,这种方法就不能有效鉴定出病毒序列。首先,本文通过词向量方法整体抽提完整基因组序列内在特征进而使用分类算法鉴定病毒序列,并与同源性搜索方法进行比较。同时,考虑到病毒宏基因组学的高通量测序过程中产生的基因组序列通常不是完整的,而是基因组中的一些片段,本文又随机选择完整基因组序列的片段进而基于词向量来对病毒序列进行鉴定,并且与基于序列片段的同源性搜索方法进行比较。实验结果表明,无论是对完整基因组序列还是基因组序列片段,基于词向量的病毒序列鉴定方法均要优于同源性搜索。本文的完成是使用词向量表示生物序列的有益尝试,研究结果表明词向量可以作为一种有用的生物序列表征方法用于生物信息学研究。同时,本文的工作也有助于新发突发流感病毒的防控与病毒基因组序列的快速鉴定。
其他文献
介绍南京长江二桥较大跨径预应力混凝土连续梁在采用挂篮悬臂灌筑施工中的线形控制问题.着重阐述各梁段施工中的过程控制、施工监测和合龙段施工等线形控制方面的经验和措施.
以宜万铁路龙凤坝隧道DK212+380~DK212+500段工程为背景,通过建立数据模型,比选支护方案,确定岩溶隧道浅埋软弱围岩段支护措施及支护参数,从而指导浅埋软弱围岩隧道施工.
探讨北京地铁苏州站车站暗挖逆筑法,双层双拱结构断面采用PBA法,单层双拱结构断面采用中洞法的施工技术和方法.
目的:观察芪田颗粒方对老年髋部骨折患者围手术期D-二聚体(D-Dimer)和凝血四项即凝血酶原时间(PT)、部分凝血活酶时间(APTT)、纤维蛋白原(Fib)及凝血酶时间(TT)的作用,探讨芪田颗粒方干预老年髋部骨折后血液高凝状态的临床疗效。方法:试验方案研究对象:2018年1月至2019年6月广东省中医院收住入院的老年髋部骨折(包括股骨颈骨折、转子间骨折)行手术治疗的患者。符合髋部骨折骨折PFN
近年来上海市由于社会经济快速发展,商品房价格持续上涨并呈现居高不下态势,房价已超越普通工薪阶层实际支付能力;另一方面上海市由于工商业资源高度集聚,吸引了大批外来人口
以“养儿防老”为核心的家庭养老模式,自古以来就是我国农村养老最主要的形式。计划生育造成了家庭规模小型化、家庭结构核心化,对家庭养老方式形成了冲击和挑战。家庭养老功能逐渐弱化,子女为老人提供的经济支持和生活照料变得有限,更缺乏对老人的精神慰藉,导致老人孤独、焦虑、抑郁,对生活不乐观、不积极(阎寒梅等,2017)。如何让农村老年人有尊严、健康、快乐地老去,如何改善农村中老年人精神健康,是每个中国家庭甚
某工程深基坑因紧邻历史保护建筑,故在开挖前需对基坑边的优秀历史保护建筑结构进行加固及采取保护措施,以确保历史保护建筑的结构安全。结合工程实例,介绍了基坑围护设计、历史
高铁的持续发展使铁路客运在城市客运中占据了越来越重要的地位,一时间,大量铁路客站如雨后春笋般出现。但是,有不少城市铁路客站却出现有车无人,有人无车的现象,可见这些铁路客站并没有发挥出客站选址的预期效果。因此,本文以铁路客站选址应该实现客站与城市发展的内在融合和外在融合为目标,通过定量与定性相结合的方式对我国7个城市的24个现有铁路客站进行选址适应性研究。首先,根据铁路运输发展现状、站城融合发展趋势