论文部分内容阅读
语义角色标注(Semantic Role Labeling)近来年来备受关注,且已取得了长足的发展,多项研究表自动推断语义论元结构能够导致诸如信息抽取、自动问答和文本蕴含等众多自然语言处理(Natural Language Processing)应用领域性能的实质提高。然而,由于传统上SRL只是作为句子内部的角色标注任务而没有扩展到篇章级别,同时只是给显现表达的句法论元标注语义角色,从而丢失了许多未显现表达的语义角色,这些角色中有一部分在联系篇章中各个局部语义论元之间的关系时起到至关重要的作用,由于这些缺失,也使得局部语义论元之间的这些关系被忽略了。因此,发现这些缺失的语义角色对于推动篇章理解具有特别积极的意义。在FrameNet中,这些缺失的语义角色被称为是零形式框架元素(Null Instantiation),简称为零形式,其中那些能够在局部语义论元之间建立起语义联系的零形式被称为有定的零形式框架元素(Definite Null Instantiation),也简称为有定的零形式。在FrameNet中,通过抽取句子的核心依存图可以发现其所在篇章段落的语义线索,而推导核心依存图中有一个关键问题——缺位填充,所谓缺位填充就是识别出结构中有定的零形式的显示先行成分。本文从SemEval-2010Task10的NI Task任务出发,研究语料中有定的零形式的识别方法,提出一个二级流水线的识别模型:第一级使用基于规则的方法在语义角色标注的语料基础上检测出其中的零形式;第二级使用最大熵分类器预测检测出来的零形式类别,以达到有定的零形式识别的目的,为开展有定的零形式消解迈出了重要的一步。本文的主要研究内容包括:(1)研究基于规则的零形式检测方法。零形式是由核心框架元素缺失引起的,但并不是所有的核心框架元素缺失都能引起零形式,这是因为核心框架元素之间还存在着彼此之间相互依赖和制约的三种关系。在深入学习这些关系的基础上本文总结出一套用于判断零形式的规则,继而提出了基于规则的零形式检测方法,实验的召回率为60.1%。(2)研究了基于最大熵的零形式分类方法。根据对缺失成分的解释类型,零形式分为有定的零形式和无定的零形式两类,据此在零形式检测的基础上,将有定的零形式识别转化为一个二分类的问题。从词和语义两个层面分别选取了tgt,pos,lemma, frame等几个与零形式类型最密切相关的特征,采用基于最大熵模型的方法完成了分类,实验得到的准确率为53.5%,接近评测任务给出的最好结果。