论文部分内容阅读
篇章关系识别旨在研究篇章内部论述单元(简称为“论元”)的语义逻辑关系,是自然语言处理领域中的一项重要研究任务。宾州篇章树库语料库是篇章关系识别领域的权威数据集,它根据论元间是否有连接词,将篇章关系任务区分为显式篇章关系和隐式篇章关系识别任务。目前,显式篇章关系识别性能已达90%以上,而隐式篇章关系由于缺乏连接词等线索,性能仍然较低。本文针对隐式篇章关系,提出一种基于知识扩展与表示学习的隐式篇章关系识别方法。主要研究内容包括以下三个方面:(1)基于主动学习的隐式篇章语料扩充方法现有篇章关系识别存在语言学资源规模有限、现有神经网络模型依赖大量的训练样本等问题,导致模型对样本较少的关系类别的分类能力较差。因此通过增加训练语料来提升分类性能是一个有效的方法。针对篇章数据扩展问题,前人研究通过连接词模板匹配大量外部语料,将匹配到的显式数据去掉连接词,形成伪的隐式篇章样本。由于去掉连接词的样本带来一定的语义改变,并且外部数据存在噪音等问题,将这类伪数据直接加入训练集,反而导致性能有所下降。针对以上问题,本文使用主动学习方法筛选训练数据,选择信息量高且低噪音的样本加入训练集,从而提升模型的分类能力。(2)基于堆叠式注意力机制的隐式篇章关系识别现有研究通过构建复杂模型提升模型的分类能力,这类方法往往忽视了论元本身的关键信息,以及两个论元之间语义层面的交互性。针对以上问题,本文提出一种基于堆叠式注意力机制的隐式篇章关系分类方法。该方法将论元的自注意力分布表示应用于论元之间的交互式注意力计算。在此基础上,该方法通过自注意力和交互式注意力的信息融合,强化了论元间关联信息的权重。(3)基于层次化表示的隐式篇章关系识别仅通过提升论元间的信息交互,不能表述论元对的整体语义概念。原因在于,现有方法往往将论元对作为独立的个体,忽略上下文信息对其语义上的影响。因此,本文提出一种基于层次化表示的隐式篇章关系识别,通过基于词的注意力机制,提取出较为重要的单词或短语,并通过论元的注意力机制,赋予关键论元较高的权重,最终通过基于上下文的注意力机制,融合论元对所在段落的信息,最终获得具有上下文语义信息的论元对表示。该方法进一步强化了论元之间信息交互性,同时强化了论元对与上下文信息的交互。本文通过以上方法,从知识扩展及表示学习两种角度出发,一定程度上缓解了目前篇章关系数据不平衡和分类线索片面问题。在四分类方法中,准确率达到60.63%,Macro-F1达到44.48%,在准确率上超过目前已有的语料扩展方法。在二分类方法中,能在扩展关系和时序关系上超过目前国际前沿方法,F1分别为 72.41%和37.56%。