论文部分内容阅读
信息抽取(IE)是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。从自由文本中抽取事件信息是IE领域中难度最大、最具学术挑战性的研究课题,也是本文的主要研究对象。另外,从自由文本或从Web网页之类的半结构化文本中抽取关系信息也有相当的学术挑战性,也在本文研究范围之列。 目前世界上多数IE系统都采用模式匹配法,而采用模式匹配法的IE系统在本质上是领域相关的。这是因为对每个特定的IE领域/任务,都要为之设定相应的模式来指导针对该IE领域/任务的IE。 为了提高采用模式匹配法的IE系统的可移植性,关键是如何较为快捷方便准确全面的获取针对某个IE领域/任务的IE模式。起初,IE模式是人工通过手工方法来建立的,但这费时费力,对用户或领域专家的技能水平要求较高。为了较为快捷方便的获取IE模式,人们采用机器学习方法来获取IE模式。最早的IE模式学习方法需要手工标注规模较大的语料;而标注大规模的语料也费时费力,于是为了减轻用户的劳动并降低对用户的技能要求,改进后的模式学习方法只是要求用户将训练文档集合分为相关和不相关的两类,然后就能自动的从中学出相关的IE模式;进一步的研究发现,即使要求用户将训练文档集合分为相关和不相关的两类,也并非易事,因而目前最新的做法是只要求用户提供几个可以轻易想到的有代表性的IE模式,相应的模式学习方法就可以从一个未经分类的文档集合中学出更多的模式并同时完成对文档的相关性分类。 在上述各种事件IE模式学习方法中,都采用了各自不同的模式表示方式。但无论这些事件IE模式的表示方式有多大差异,它们都利用了语法信息和语义信息的概括约束作用。其中,语义信息的概括约束作用是通过将模式中的某些概念元素用它们的上位概念代替来完成的,而这就需要一个概念层次知识库的支持。一般的,这个概念层次知识库中的概念知识可分为领域相关和领域无关两个部分,而领域无关部分概念知识可以直接从现成的领域无关的概念层次知识库如WordNet/HowNet等中得到,需要用户手工建造的只是领域相关部分的概念知识,这进一步减轻了用户在IE模式获取过程中的工作量。 本文给出了一种基于领域无关概念知识库的事件IE模式学习方法GenPAM。该方法利用了领域无关的概念层次知识库如WordNet/HowNet等的支持并能在模式学习的过程中同时实现词义消岐。GenPAM在进行IE模式学习的时候,不需用户提供几个有代表性的种子模式,也不需用户进行语料分类,更不需用户进行