论文部分内容阅读
Web2.0技术开启了信息爆炸的时代,面对铺天盖地的互联网信息,用户需求的往往不是搜索引擎返回的大量网页,而是从网页中提取的结构化或半结构化信息。实体抽取和关系抽取作为自然语言处理技术的核心研究领域,一方面可以快速满足用户的特定信息需求;一方面可以通过建立实体知识库促进相关技术发展。本文以TAC-KBP评测为基础,对实体属性抽取的关键问题展开研究,共包括三个方面:一是实体连接,二是实体聚类,三是实体属性抽取。论文的主要创新工作和成果如下:一、提出了实体连接任务的四种模型:检索模型、分类模型、共指消解模型和规则模型,解决实体相关文档检索问题。检索模型强调了排序的作用;分类模型侧重于文本分类器的使用;共指消解模型将实体连接任务作跨文档共指消解处理;规则模型对不同类型的实体制定相应的规则。在TAC2010-KBP数据集上的测试表明,使用语义特征的共指消解模型和规则模型的性能指标比检索模型提高10%以上。二、作为实体连接任务的扩展;提出了实体聚类任务的词袋模型和强特征模型,解决实体别名探测问题;同时引用了基于bootstraping算法的双阶段模型。在TAC2009-KBP数据集上的测试表明,强特征模型能够有效地提高系统的准确率,双阶段模型有利于提高系统的召回率;两种模型的F值均比词袋模型高20%以上。三、针对实体属性抽取任务,使用了模式匹配模型和机器学习模型。模式匹配模型通过定义的正则表达式对实体属性进行抽取;机器学习模型通过CRFs算法训练的模型实现实体属性抽取。两种模型的综合使用在TAC2010-KBP的评测中取得了良好效果。