【摘 要】
:
机器阅读理解旨在通过理解无结构的文本来回答相关的问题,是自然语言领域中最具挑战性的任务之一。得益于深度学习技术的发展和大型数据集的涌现,近些年来机器阅读理解领域发展迅猛,在很多数据集上达到甚至超过人类的水平。这些传统的机器阅读理解任务往往是“单跳”的,即大多数情况下仅仅根据一篇文章或一句话就能得到问题的答案。然而在现实情况中,很多时候我们需要在多个文档之间进行推理方可获得问题的答案。这种“多跳”阅
论文部分内容阅读
机器阅读理解旨在通过理解无结构的文本来回答相关的问题,是自然语言领域中最具挑战性的任务之一。得益于深度学习技术的发展和大型数据集的涌现,近些年来机器阅读理解领域发展迅猛,在很多数据集上达到甚至超过人类的水平。这些传统的机器阅读理解任务往往是“单跳”的,即大多数情况下仅仅根据一篇文章或一句话就能得到问题的答案。然而在现实情况中,很多时候我们需要在多个文档之间进行推理方可获得问题的答案。这种“多跳”阅读理解对模型的语义推理和归纳能力提出了更大的挑战。本文以多跳阅读理解任务为研究对象,采用WIKIHOP数据集,研究了不同的模型架构以更好对原始文本进行归纳和推理。本文研究的内容主要如下:(1)研究多跳阅读理解数据集的构建方法。参照WIKIHOP数据集,我们构建数据收集和处理的流水线,并对收集的数据集进行分析,最后在数据集上进行基准实验;(2)研究基于图卷积网络的多跳阅读理解模型。首先构建基于R-GCN的基础模型GCN_Base,并在此基础上进行改进,优化实体图,加入双层注意力机制和双评分机制,得到改进模型GCN_Enhance。实验表明GCN_Base在基准模型的基础上有15%的准确率提升,GCN_Enhance在GCN_Base的基础上将准确率进一步提升3.3%;(3)研究上下文增强的多跳阅读理解模型。我们提出上下文增强模型CEG克服图模型的缺陷,分别使用软提取和硬提取来进行上下文增强。软提取是在实体编码中嵌入上下文表示,主要通过引入预训练语言模型BERT来实现。硬提取是直接提取实体周围的上下文内容,并使用记忆网络在图推理阶段加以利用。CEG相对于GCN_Enhance的准确率提升为5.7%,进一步的消融性实验验证了模型各个模块的有效性。本文的研究围绕多跳阅读理解展开,探讨了图模型在多跳阅读理解任务中的使用,并进一步提出上下文增强方法来克服图模型的缺陷。实验表明我们提出的方法能有效提升模型的归纳和推理能力。
其他文献
Ⅱ型糖尿病(T2DM)是一种由于代谢紊乱导致的疾病,近年来逐渐增大的发病率导致非传染性疾病的费用增加,而T2DM并发症更是严重威胁到人们的生活水平。由于社会资源有限,同时,T2DM并发症不能被完全治愈,糖尿病患者的并发症预防及自我管理行为则尤为重要。相关研究表明预警指标的预测结果对患者有益,大多数研究用专业医疗技术、仪器检测的指标,如酶联免疫吸附法检测的血清血管内皮抑制素水平、微流式血流计检测红细
随着对图像或视频增强技术的不断完善,人们对于视觉清晰度的要求也随之提升。但是高分辨率图像一方面会增加图像采集、存储和传输的成本,另一方面也会受到低信噪比的困扰。因此,超分辨技术应运而生。超分辨率重建技术主要包括三类:1.基于基于传统算法的超分辨率重建技术一般是利用插值技术实现的,虽然图像或视频映射到了高分辨率空间,但在视觉上仍然是模糊的。2.基于机器学习的超分辨率重建技术则是通过构建回归模型,利用
目前,我国城市化进程高速发展,随着机动车数量的快速增长,城市发展中的交通拥堵、交通管理、事故救援等方面的问题也越来越突出。随着大数据和深度学习的迅猛发展,智慧交通、智慧城市也是当前城市发展的必然趋势,智慧交通是智慧城市中不可缺少的一部分。对车辆的跟踪是交通拥堵预测和交通智能调控的基础,由于交通监控场景下,车辆数目较多,车辆运行环境复杂,遮挡较多,如何实时并且准确地进行多车辆的跟踪一直是一个难点。本
随着信息化技术的高速发展,移动定位技术在日常出行服务中的重要地位日愈凸显,并且移动端定位系统在众多移动终端设备中适配性较高,使得移动定位相关的应用能够更广泛的推广和提升。但是现在的移动端定位系统大部分都更加偏向于向用户提供更好的位置服务,而忽略了向用户展示定位的相关信息,信息的不透明性会对用户体验产生不好的影响。Android移动端定位技术的成熟发展为本系统提供了良好的开发环境。基于对现有定位技术
改革开放以来,我国制造业持续快速的发展实现了历史性跨越。虽然我国目前已成为全球制造业第一大国,但与世界先进水平相比,我国制造业“大而不强”的情况十分突出。在高端产品领域依然缺乏竞争力,制造业面临转型升级和跨越发展的任务紧迫而艰巨。对此,我国推出“中国制造2025”宏大计划,旨在提升我国制造业的国际竞争力。在此背景下,本文采用文献分析、定量分析和数据研究相结合的方法。在对国内外众多服务化转型的相关文
绿豆(Vigna radiata L.)是一种抗逆性强、适应性广的豆类作物,在农业种植结构调整和高效农业生产以及经济发展中具有重要作用。豆象是危害绿豆种植、生产和仓储最重要的害虫
随着互联网规模的增长和各类网络应用的不断出现,网络已经成为人类生活的必需品。与此同时,互联网上存在着海量的网络流量数据信息,各类网络攻击和异常流量也给网络空间安全造成了威胁。网络流量分类作为网络信息安全领域所关注的研究热点,是一种有效的网络防护手段。一方面,海量的网络应用需要进行流量分析,从而能够合理地分配资源,保证网络服务质量(QOS);另一方面,分析整个网络流量信息、挖掘网络当中所存在的异常状
车辆行驶工况是评价车辆污染排放水平和燃油消耗水平的重要依据。我国目前的法规主要是借鉴欧洲行驶工况,它并不能很真实的反映我国实际的道路情况和车辆行驶状况。因此,依据我国车辆实际运行状况构建符合中国国情的机动车道路行驶工况具有重要意义。本文以构建济南市城市典型行驶工况为目标,重点进行了以下工作:1.数据采集方法:针对工况构建过程中数据采集方面存在的车辆行驶数据量小、采集数据主观性强等问题,采用了自主行
近几年,由于移动互联网在不断地快速发展,网络上的信息也越来越丰富。面对如此丰富的网络信息,推荐便显得尤其重要。推荐系统的主要功能是根据用户对物品的历史行为信息,挖掘出用户的行为偏好。然后根据偏好模型提供给用户满足需求的信息。传统的推荐系统面临的稀疏性问题和冷启动问题在一定程度上限制了推荐的效果。而表示学习实现了把不同研究对象之间丰富的关联信息投影到低维的向量空间中,这种学习方法可以很好的解决推荐系
随着我国社会保险事业的快速发展,作为社会保障体系核心内容的养老保险越来越多的受到国民的关注,如何保证社会保险经办机构依据法律法规执行社会保险政策并给予受保者合理的