论文部分内容阅读
开放域问答(Open-domain Question Answering)在计算机科学领域指的是给定广泛领域的任意自然语言问题,自动给出答案的任务。开放域问答是信息检索和自然语言处理的核心问题之一。现有的研究大多把开放域问答拆分成几个阶段,比如文档检索、文档排序和机器阅读理解,即先从海量的文档集合中检索出最相关的文档,再进一步对这些文档排序,最后使用机器阅读理解技术从候选文档中抽取出最终的答案。近年来,自注意力预训练模型在开放域问答中的应用越来越广泛,也随之带来了较高的计算和存储开销。本文针对开放域问答任务,把哈希学习应用于问答的不同阶段,用来解决开放域问答的计算和存储开销问题,具体包括如下三个创新贡献:现有的针对大型知识库的文本检索大多是基于词频-逆文档频率算法或者BM25算法,这两种方法都是基于词语的直接匹配,不能检索到含有相近词语的文档。为了解决这个问题,在词语的直接匹配基础上,提出一种基于哈希学习的查询句扩展(Hashing based Query Expansion,简称HQE)模型,利用哈希技术学习词向量的二值编码,进而提高查询句扩展的效率。实验表明HQE查询句扩展模型提升了计算效率,同时只需要较少的存储消耗。结合词语直接匹配和HQE查询句扩展的文本检索模型,在多个数据集上达到了最高的召回率。使用自注意力预训练模型作为编码器的文档排序模型在预测时,存在计算效率和存储开销问题。本文提出了一种将哈希学习与文档重排序相结合的模型(Hashing based Passage Re-ranking,简称HPR),为每个候选文档学习它的二值表示矩阵,在预测时将这些编码矩阵存储在内存中,避免重复计算。在三个数据集上的实验表明,HPR模型能够提高计算效率,同时能减少存储文档矩阵所需的内存开销,并且提升同等候选文档数量的召回率,取得当前最好的结果。现有的阅读理解模型大多使用预训练的自注意力模型获取文档和问题的语义表示,也同样存在存储开销问题。开放域问答需要阅读多篇文档,综合得出最后的答案,在预测答案时综合考虑其他候选文档,能够提高阅读理解的效果,也进一步增加了存储消耗。为了解决这一问题,本文提出了一种基于哈希学习的多文档阅读理解(Hashing based Multi-document Reading Comprehension,简称HMRC)模型,用多次迭代的方式预测最终的答案,并使用哈希技术学习文档的二值矩阵表示。实验表明,HMRC模型在预测时能够减少存储文档表示矩阵的内存消耗,在三个开放域问答数据集上取得了最好的结果。