论文部分内容阅读
事件抽取是信息抽取领域一个重要的研究方向。事件抽取主要把人们感兴趣的,用自然语言表达的事件以结构化的形式呈现出来,如什么人,什么地方,什么时间,做了什么事等,在自动文摘,自动问答以及信息检索等领域有着广泛的应用。本文主要针对中文事件抽取中的两大主要任务:事件类别识别以及事件元素识别进行了深入研究,并实现了中文事件抽取系统HIT-IR EES。在事件类别识别中,由于语料的限制训练实例较少,存在着严重的数据稀疏问题,如何解决数据稀疏问题以及发现新事件成为研究的重点。本文提出了一种基于自动扩展事件触发词的方法来解决这些问题,首先使用辞典自动对训练集中的事件触发词进行扩展,根据扩展的触发词获取候选事件及其唯一的候选类别;然后结合扩展的触发词,使用词法、上下文信息和辞典特征,利用最大熵分类器对候选事件进行二元分类,来判定事件的类别。该方法将候选事件作为训练实例,有效缩减了训练实例中反例的个数,解决了训练数据正反例不平衡问题,并且扩展的触发词有助于新事件的发现;二元分类避免了多元分类带来的准确率低的问题。在ACE2005语料上的实验结果显示,最终的F值达到了61.24%,超过了传统的基于机器学习的方法。在事件元素识别中,如何从众多的Entity、Time Expression以及Value中找出事件元素,并准确的进行角色标注成为研究的重点。本文提出了两种方法:基于SRL(语义角色标注)的事件元素识别,以及基于最大熵的事件元素识别。基于SRL的方法直接利用SRL技术模块的结果,并通过角色标签转换完成事件元素识别的任务,但由于该方法过度依赖于底层技术,如SRL,依存句法分析等,使得错误级联情况较为严重;基于最大熵的方法将事件元素识别问题看作分类问题,将所有出现的Entity、Time Expression和Value作为候选元素,选取词法、类别信息、上下文信息、句法结构等特征从不同的角度描述候选元素,并采用最大熵分类器对其进行多元分类。对比实验证明,由于候选元素实例比较充裕,多元分类的方法取得了很好的效果。在ACE2005语料上的实验结果显示,最终的F值达到了64.64%,高于基于SRL的元素识别方法。