基于知识扩展与表示学习的隐式篇章关系识别方法研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户：alanlee75

【摘要】

：

篇章关系识别旨在研究篇章内部论述单元(简称为“论元”)的语义逻辑关系,是自然语言处理领域中的一项重要研究任务。宾州篇章树库语料库是篇章关系识别领域的权威数据集,它根

【作者】

：

徐扬

【出处】

：

苏州大学

【发表日期】

：

2019年01期

【关键词】

：

隐式篇章关系知识扩展表示学习主动学习注意力机制段落信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

篇章关系识别旨在研究篇章内部论述单元(简称为“论元”)的语义逻辑关系,是自然语言处理领域中的一项重要研究任务。宾州篇章树库语料库是篇章关系识别领域的权威数据集,它根据论元间是否有连接词,将篇章关系任务区分为显式篇章关系和隐式篇章关系识别任务。目前,显式篇章关系识别性能已达90%以上,而隐式篇章关系由于缺乏连接词等线索,性能仍然较低。本文针对隐式篇章关系,提出一种基于知识扩展与表示学习的隐式篇章关系识别方法。主要研究内容包括以下三个方面:(1)基于主动学习的隐式篇章语料扩充方法现有篇章关系识别存在语言学资源规模有限、现有神经网络模型依赖大量的训练样本等问题,导致模型对样本较少的关系类别的分类能力较差。因此通过增加训练语料来提升分类性能是一个有效的方法。针对篇章数据扩展问题,前人研究通过连接词模板匹配大量外部语料,将匹配到的显式数据去掉连接词,形成伪的隐式篇章样本。由于去掉连接词的样本带来一定的语义改变,并且外部数据存在噪音等问题,将这类伪数据直接加入训练集,反而导致性能有所下降。针对以上问题,本文使用主动学习方法筛选训练数据,选择信息量高且低噪音的样本加入训练集,从而提升模型的分类能力。(2)基于堆叠式注意力机制的隐式篇章关系识别现有研究通过构建复杂模型提升模型的分类能力,这类方法往往忽视了论元本身的关键信息,以及两个论元之间语义层面的交互性。针对以上问题,本文提出一种基于堆叠式注意力机制的隐式篇章关系分类方法。该方法将论元的自注意力分布表示应用于论元之间的交互式注意力计算。在此基础上,该方法通过自注意力和交互式注意力的信息融合,强化了论元间关联信息的权重。(3)基于层次化表示的隐式篇章关系识别仅通过提升论元间的信息交互,不能表述论元对的整体语义概念。原因在于,现有方法往往将论元对作为独立的个体,忽略上下文信息对其语义上的影响。因此,本文提出一种基于层次化表示的隐式篇章关系识别,通过基于词的注意力机制,提取出较为重要的单词或短语,并通过论元的注意力机制,赋予关键论元较高的权重,最终通过基于上下文的注意力机制,融合论元对所在段落的信息,最终获得具有上下文语义信息的论元对表示。该方法进一步强化了论元之间信息交互性,同时强化了论元对与上下文信息的交互。本文通过以上方法,从知识扩展及表示学习两种角度出发,一定程度上缓解了目前篇章关系数据不平衡和分类线索片面问题。在四分类方法中,准确率达到60.63%,Macro-F1达到44.48%,在准确率上超过目前已有的语料扩展方法。在二分类方法中,能在扩展关系和时序关系上超过目前国际前沿方法,F1分别为 72.41%和37.56%。

其他文献

气候变化对中国东北部及四大沙地植被覆盖的影响（1982-2013）

陆地植被覆盖对气候变化有较为敏感的响应,因此开展对气候与植被覆盖之间的关系进行定量研究有助于理解和预测未来气候变化情景下陆地植被覆盖的可能变化。本文借助归一化植

学位

气候变化植被覆盖四大沙地量化模型

护坡植被吸水势与土中水分场的监测方法与应用研究

近年来,植物护坡的理念已经开始逐渐被人们所熟知,该种技术克服了单纯工程护坡会破坏生态环境,威胁生态平衡的矛盾,不仅可以预防边坡地质灾害,降低护坡成本,而且还可以改善环

学位

植物AHFO方法含水率吸水势护坡

基于产品供销的多工厂单元制造人工鱼群优化研究

在“中国制造2025”战略的引领下,中国制造企业迎来了千载难逢的发展机会,制造企业需在提质增效的基础上提高综合集成水平,以满足社会和市场的需求。频繁的产品更新换代和需

学位

单元制造系统多工厂供应链人工鱼群算法优化模型

远端缺血预处理（RIPC）保护肾脏缺血—再灌注损伤及作用机制研究

目的:本研究旨在大鼠模型中证实远端缺血预处理(RIPC)保护肾脏缺血再灌注损伤并探究缺氧诱导因子的作用。方法:将40只雄性SD大鼠(160-180g)随机分为4组:假手术组(SHAM),IR组,

学位

肾脏缺血再灌注远端缺血预处理缺氧诱导因子系统性红斑狼疮25羟-维生素D3狼疮性肾炎

基于太阳能电池的稀土离子掺杂玻璃的制备及其光谱转换机理研究

能源危机是当前世界各国面临的一大难题,而太阳能作为一种清洁能源,可通过新技术加以利用并转换为电能,有望缓解能源紧张。目前,限制太阳能电池效率的主要问题在于太阳光谱与

学位

稀土掺杂荧光性能光谱调制能量传递太阳能电池

语言背景和性别对语音夹带的影响

语音习得是二语习得中不可或缺的一部分,同时也是难点之一。在不同的语音环境中,交际者会调整自己原有的言语习惯或语体,以更接近说话对象的言语或语体,从而产生语音夹带的现

学位

中国英语学习者语言背景性别语音夹带自然语流地图任务

高新区被征地农民社会保障制度研究

土地是农民生存和发展的重要物质资源,随着城市化进程的不断加快,农业用地被依法征收后,被征地农民常常因为就业困难而因征返贫,加上征地补偿制度与社会保障制度还没有形成统

学位

高新区被征地农民社会保障制度

基于Q-learning的个性化产品供应链Multi-Agent多边协商研究

随着消费需求的转变,个性化产品越来越受到消费者的偏爱。互联网、信息技术和生产制造能力的提升,为个性化产品的生产提供了技术基础。“互联网+先进制造业”和“供应链创新

学位

个性化产品供应链Q-learningMulti-Agent模糊理论协商

股票行业配置对基金业绩影响

行业配置是指在个股层次上保持相对消极的态度,而在股票行业的层次上进行积极投资。行业配置的重点是向预期未来表现优秀的行业靠近,并减少预期未来表现恶化的行业在投资组合中的权重。基金市场的结构表明,资产配置依然占主导地位,大部分研究也是围绕资产配置展开,而行业配置方面的研究较少,且多集中于行业集中度方面的研究。虽然基金行业广泛认为优化基金行业配置能有效提升业绩,但真正有效的策略少之又少。基于有关行业配置

学位

行业配置非参数加权聚类贝叶斯决策理论策略评价体系

ALPPS术后肝再生与内质网应激IRE1α-XBP1通路的关系研究

目的:ALPPS是目前临床上新兴的用来解决肝部分切除时剩余肝体积不足的一种手术方式,因其独特的增生速度而被大量临床工作者视为未来解决肝切除术临床问题的有效方法之一,而内

学位

肝再生内质网应激增殖ALPPSXBP-1

基于知识扩展与表示学习的隐式篇章关系识别方法研究

与本文相关的学术论文