论文部分内容阅读
本文主要介绍一个基于统计的英文命名实体识别系统以及所采用的模型和它的实际应用。命名实体识别是信息抽取的一种形式,它的主要任务是将文本中的词分为人名、地名、组织名等类型。该任务对于搜索引擎,问答系统有相当重要的作用,也是更加复杂的信息抽取任务的基础。
对命名实体识别系统来说,有两个重要的问题。一是系统的性能,二是系统的可扩展性。一个性能良好的命名实体识别系统对基于其上的各种自然语言处理应用有着相当重要的作用。可扩展性要求命名实体识别系统能以尽量小的代价适应不同的语料与任务甚至不同的语言,.并保持良好的性能。本文提出了解决这两个问题一些方法。
我们分别采用最大熵和条件随机场这两种基于统计的模型建立了系统。利用一些文本上易于获取的特征,包括文本中单词的词汇信息,词性标记和短语标记,局部上下文,命名实体词典和语料特有的结构信息。系统在CoNLL会议命名实体识别特别兴趣组所提供的英文语料上进行了一系列实验。实验表明,基于这两种统计模型的命名实体识别系统可以较好的对英文语料进行识别。条件随机场模型相对于最大熵在使用同样特征的情况下取得了相对更好的效果。
在此基础上,我们利用未标注语料针对第二个问题做了进一步的实验。在完全只利用未标注语料和词典来产生标注语料进行训练的情况下,命名实体识别系统取得了一个可以接受的结果。证明当对命名实体类别进行扩展时,在没有标注语料的情况下,类似的方法可以有效的减少人工标注工作,并用于建立一个扩展类型的命名实体识别系统。
最后,我们将命名实体识别系统应用于问答系统。问答系统是自然语言处理的高级应用。命名实体识别的性能对其中的答案抽取模块具有相当大的影响。针对FDUQA问答系统的答案类型分类体系,我们扩展了命名实体的类别,主要包括一些数字类型的命名实体。在标注了一部份语料之后,分别采用基于规则和基于统计的系统进行实验。实验表明,基于规则的系统在扩展类型的识别任务上效果好于基于统计的系统。在问答系统上的实验表明,问答系统的性能很大程度上依赖于该类别的答案所对应的命名实体识别的性能。