命名实体识别研究及其应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:xiestephen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要介绍一个基于统计的英文命名实体识别系统以及所采用的模型和它的实际应用。命名实体识别是信息抽取的一种形式,它的主要任务是将文本中的词分为人名、地名、组织名等类型。该任务对于搜索引擎,问答系统有相当重要的作用,也是更加复杂的信息抽取任务的基础。 对命名实体识别系统来说,有两个重要的问题。一是系统的性能,二是系统的可扩展性。一个性能良好的命名实体识别系统对基于其上的各种自然语言处理应用有着相当重要的作用。可扩展性要求命名实体识别系统能以尽量小的代价适应不同的语料与任务甚至不同的语言,.并保持良好的性能。本文提出了解决这两个问题一些方法。 我们分别采用最大熵和条件随机场这两种基于统计的模型建立了系统。利用一些文本上易于获取的特征,包括文本中单词的词汇信息,词性标记和短语标记,局部上下文,命名实体词典和语料特有的结构信息。系统在CoNLL会议命名实体识别特别兴趣组所提供的英文语料上进行了一系列实验。实验表明,基于这两种统计模型的命名实体识别系统可以较好的对英文语料进行识别。条件随机场模型相对于最大熵在使用同样特征的情况下取得了相对更好的效果。 在此基础上,我们利用未标注语料针对第二个问题做了进一步的实验。在完全只利用未标注语料和词典来产生标注语料进行训练的情况下,命名实体识别系统取得了一个可以接受的结果。证明当对命名实体类别进行扩展时,在没有标注语料的情况下,类似的方法可以有效的减少人工标注工作,并用于建立一个扩展类型的命名实体识别系统。 最后,我们将命名实体识别系统应用于问答系统。问答系统是自然语言处理的高级应用。命名实体识别的性能对其中的答案抽取模块具有相当大的影响。针对FDUQA问答系统的答案类型分类体系,我们扩展了命名实体的类别,主要包括一些数字类型的命名实体。在标注了一部份语料之后,分别采用基于规则和基于统计的系统进行实验。实验表明,基于规则的系统在扩展类型的识别任务上效果好于基于统计的系统。在问答系统上的实验表明,问答系统的性能很大程度上依赖于该类别的答案所对应的命名实体识别的性能。
其他文献
为一个大型复杂系统建模通常是一件非常烦琐和相当困难的工作,为了控制和降低系统模型的复杂程度,人们通常采用多视图方法来有效地简化模型的表达。一个软件系统模型由多个不同
网络可生存性是对传统网络安全观念的突破和创新,强调网络信息系统在遭受攻击、故障或意外事故的情况下,能够及时的完成其主要任务的能力。可生存性的中心思想是即使在入侵成功
识别出蛋白质编码基因及其启动子是基因组研究中的重要论题。然而,面对急剧膨胀的基因组序列数据,传统的生物学方法已很难满足需要,采用计算的方法高通量地预测蛋白质编码基因及
随着实时计算的功能日益强大,应用成本的逐渐降低,实时计算技术广泛应用于航空航天、交通运输、核电能源和医疗卫生等诸多任务关键实时系统。为减少或防止实时系统发生灾难性
随着网络信息技术的发展以及GIS技术的日益成熟,WebGIS已经逐渐在各个行业内进行得到了广泛的应用。鉴于GIS平台的特殊性,WebGIS以其平台独立性、广泛的互操作性以及大规模降
本文详细介绍了网络安全的实现目标,引入了网络安全模型,阐述了入侵检测对于实现网络安全目标的必要性;介绍了入侵检测通用模型CIDF的结构组成、入侵检测分类和常用的入侵检测技
白粉病是小麦病虫害中的主要病害之一,在我国普遍发生。近年来,随着气候和环境变化,我国小麦白粉病发生范围不断扩大、危害程度不断加重,严重影响我国小麦的产量和品质。预测
本文以软件能力成熟度模型CMM为理念,结合在软件企业的实践以及调研工作,根据软件企业发展的需要,搭建了一个满足CMMⅡ框架要求的、具有整体优势的综合平台——软件过程管理
图像分割是计算机视觉中的关键问题之一,其应用范围非常广泛,几乎出现在有关图像处理的所有领域,并涉及到各种类型的图像。传统非模型的分割方法由于其方法本身的局部性、分割区
无线传感器网络是集成了微电子技术、计算技术、传感技术和无线通信技术的一种新型网络。它由成千上万个小型节点自组织而成,这些节点通过无线通信协作完成分布式的传感任务。