论文部分内容阅读
近年来,新发突发传染病对于人类社会的威胁越来越大。随着基因组学技术,信息技术,人工智能的迅速发展,融合多个学科的生物信息学方法和技术在传染病防控领域发挥着越来越重要的作用。本文通过对自然语言和生物序列的类比,将自然语言处理中的词向量表示法应用于生物序列的特征提取和表示,继而基于生物序列的词向量表示,研究了 A型流感病毒的宿主预测以及病毒序列的鉴定。本文的主要工作如下:(1)提出了一种基于词向量的A型流感病毒宿主预测的计算方法。流感病毒不仅对人类健康造成极大威胁,而且给人类社会造成了巨大的经济损失。快速确定流感病毒的宿主将有助于评估新发突发流感病毒的潜在风险。本工作通过类比自然语言与生物序列,将自然语言处理中的词向量方法应用于A型流感病毒宿主预测。具体来说,本文采取一种简单的生物序列分词方法,将A型流感病毒的DNA序列和蛋白质序列使用自然语言处理工具word2vec表示成实值向量,进而基于这些序列的特征向量表示,构建分类模型预测A型流感病毒的禽、人、猪三类宿主。实验结果表明,该计算方法对A型流感病毒宿主预测有很好的效果,其中,建立在表面蛋白HA和NA(或它们的基因)上的模型效果要优于建立在内部蛋白(或它们的基因)上的模型效果。对禽、人、猪三种流感病毒宿主的最高预测准确率分别达到了 98.9%、97.9%、91.9%。同时,本文将基于词向量方法的宿主预测效果与基于同源性搜索以及基于k-mer方法的宿主预测效果进行了比较分析,结果表明:基于词向量的方法和基于k-mer的方法在整体上基本一致,基于词向量的方法整体上要优于同源性搜索方法。(2)提出了一种基于词向量的病毒序列鉴定的方法。病毒是地球上多样性最大的物种,病毒宏基因组学研究的第一步是鉴定出病毒基因组序列。传统的鉴定病毒序列的计算方法主要是同源性搜索,它是基于待鉴定序列与已知序列数据库中的序列的相似性来进行的,当病毒变异较多或者出现新病毒时,这种方法就不能有效鉴定出病毒序列。首先,本文通过词向量方法整体抽提完整基因组序列内在特征进而使用分类算法鉴定病毒序列,并与同源性搜索方法进行比较。同时,考虑到病毒宏基因组学的高通量测序过程中产生的基因组序列通常不是完整的,而是基因组中的一些片段,本文又随机选择完整基因组序列的片段进而基于词向量来对病毒序列进行鉴定,并且与基于序列片段的同源性搜索方法进行比较。实验结果表明,无论是对完整基因组序列还是基因组序列片段,基于词向量的病毒序列鉴定方法均要优于同源性搜索。本文的完成是使用词向量表示生物序列的有益尝试,研究结果表明词向量可以作为一种有用的生物序列表征方法用于生物信息学研究。同时,本文的工作也有助于新发突发流感病毒的防控与病毒基因组序列的快速鉴定。