基于哈希学习的开放域问答

来源 :南京大学 | 被引量 : 0次 | 上传用户:illyfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开放域问答(Open-domain Question Answering)在计算机科学领域指的是给定广泛领域的任意自然语言问题,自动给出答案的任务。开放域问答是信息检索和自然语言处理的核心问题之一。现有的研究大多把开放域问答拆分成几个阶段,比如文档检索、文档排序和机器阅读理解,即先从海量的文档集合中检索出最相关的文档,再进一步对这些文档排序,最后使用机器阅读理解技术从候选文档中抽取出最终的答案。近年来,自注意力预训练模型在开放域问答中的应用越来越广泛,也随之带来了较高的计算和存储开销。本文针对开放域问答任务,把哈希学习应用于问答的不同阶段,用来解决开放域问答的计算和存储开销问题,具体包括如下三个创新贡献:现有的针对大型知识库的文本检索大多是基于词频-逆文档频率算法或者BM25算法,这两种方法都是基于词语的直接匹配,不能检索到含有相近词语的文档。为了解决这个问题,在词语的直接匹配基础上,提出一种基于哈希学习的查询句扩展(Hashing based Query Expansion,简称HQE)模型,利用哈希技术学习词向量的二值编码,进而提高查询句扩展的效率。实验表明HQE查询句扩展模型提升了计算效率,同时只需要较少的存储消耗。结合词语直接匹配和HQE查询句扩展的文本检索模型,在多个数据集上达到了最高的召回率。使用自注意力预训练模型作为编码器的文档排序模型在预测时,存在计算效率和存储开销问题。本文提出了一种将哈希学习与文档重排序相结合的模型(Hashing based Passage Re-ranking,简称HPR),为每个候选文档学习它的二值表示矩阵,在预测时将这些编码矩阵存储在内存中,避免重复计算。在三个数据集上的实验表明,HPR模型能够提高计算效率,同时能减少存储文档矩阵所需的内存开销,并且提升同等候选文档数量的召回率,取得当前最好的结果。现有的阅读理解模型大多使用预训练的自注意力模型获取文档和问题的语义表示,也同样存在存储开销问题。开放域问答需要阅读多篇文档,综合得出最后的答案,在预测答案时综合考虑其他候选文档,能够提高阅读理解的效果,也进一步增加了存储消耗。为了解决这一问题,本文提出了一种基于哈希学习的多文档阅读理解(Hashing based Multi-document Reading Comprehension,简称HMRC)模型,用多次迭代的方式预测最终的答案,并使用哈希技术学习文档的二值矩阵表示。实验表明,HMRC模型在预测时能够减少存储文档表示矩阵的内存消耗,在三个开放域问答数据集上取得了最好的结果。
其他文献
随着近年来科学技术的发展,航空航天、现代医学、光学工程、超精密加工等领域对运动定位精度的要求越来越高,伺服电机驱动、液压驱动、气压驱动等传统驱动装置通常只能达到数
活塞形位尺寸超差及表面缺陷等问题会导致发动机非正常运行,这不仅会造成汽车质量下降,还会威胁人身安全。质量检测作为活塞生产的关键步骤,其检测精度的高低决定着活塞质量
发动机目前正在向着节能、低污染和轻量化的趋势发展。随着发动机强化水平提高,发动机内部重要零部件将会承受更加严重的机械、热负荷,这对零件材料提出了更高的要求,镍基合金具有优异的高温强度、耐腐蚀性等性能而得到广泛应用。纳米孪晶具有优秀的机械、物理等性能,有研究表明在材料内部引入纳米孪晶结构可以提高材料力学性能。本文采用分子动力学研究方法,模拟含有纳米孪晶的镍基合金纳米划擦过程,研究纳米孪晶结构在纳米划
随着互联网技术的普及和众包思想的发展,越来越多以网络为载体的众包应用已经进入了大众的视野。在众包平台中,平台及时地发布任务,而注册的用户积极地接收任务并根据要求反
本文主要是对可特勒高勒地区成矿地质背景、多金属矿床主要类型、时空分布及成矿作用和室内岩矿测试分析进行综合研究,结合掌握的各种物化探异常特征,综合异常地球化学特征,初步查明中元古代狼牙山组、奥陶—志留纪滩间山群、晚石炭世缔敖苏组为研究区热液、矽卡岩型铁、多金属矿产的主要含矿层位,印支期是最重要的成矿时期在此大量事实基础上,确立找矿标志,为进一步开展异常验证及评价工作提供找矿依据和找矿靶区,分析推断最
无线信息与能量协同传输技术(Simultaneous Wireless Information and Power Transfer,SWIPT),利用射频信号既能传输信息又能携带能量的特性,可以实现信息与能量的同时传输,
开关磁阻电机(Switched Reluctance Motor,SRM)是最新一代无极调速系统的电机。SRM优异的容错运行能力拓宽了其应用领域,使得其在诸多领域具有良好的应用前景。功率变换器是
数据的爆炸式增长为人类社会带来巨大的机遇与挑战,如何有效挖掘数据的潜在价值已成为一项重要的研究课题。分类作为一种常见的数据分析方式,能够实现对数据内在规律的细致洞
脑胶质瘤是一种起源于脑神经胶质细胞的原发性颅内肿瘤,严重影响人类健康和生活质量。提高胶质瘤的分割精确度有助于提高诊断的准确性,降低误诊率,胶质瘤的多样性和复杂性造
随着通信业的迅速发展,频谱资源日渐紧张,太赫兹频段作为频率发展间隙获得了越来越高的关注度。近十年来,在国家的大力支持下,太赫兹的发展取得了巨大的进步。太赫兹波在安检