TAC-KBP评测中关键问题的研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户：ni_gejianren

【摘要】

：

Web2.0技术开启了信息爆炸的时代,面对铺天盖地的互联网信息,用户需求的往往不是搜索引擎返回的大量网页,而是从网页中提取的结构化或半结构化信息。实体抽取和关系抽取作为

【作者】

：

高三元

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2011年01期

【关键词】

：

统计分类特征选择实体连接实体聚类实体属性抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web2.0技术开启了信息爆炸的时代,面对铺天盖地的互联网信息,用户需求的往往不是搜索引擎返回的大量网页,而是从网页中提取的结构化或半结构化信息。实体抽取和关系抽取作为自然语言处理技术的核心研究领域,一方面可以快速满足用户的特定信息需求；一方面可以通过建立实体知识库促进相关技术发展。本文以TAC-KBP评测为基础,对实体属性抽取的关键问题展开研究,共包括三个方面：一是实体连接,二是实体聚类,三是实体属性抽取。论文的主要创新工作和成果如下：一、提出了实体连接任务的四种模型：检索模型、分类模型、共指消解模型和规则模型,解决实体相关文档检索问题。检索模型强调了排序的作用；分类模型侧重于文本分类器的使用；共指消解模型将实体连接任务作跨文档共指消解处理；规则模型对不同类型的实体制定相应的规则。在TAC2010-KBP数据集上的测试表明,使用语义特征的共指消解模型和规则模型的性能指标比检索模型提高10%以上。二、作为实体连接任务的扩展；提出了实体聚类任务的词袋模型和强特征模型,解决实体别名探测问题；同时引用了基于bootstraping算法的双阶段模型。在TAC2009-KBP数据集上的测试表明,强特征模型能够有效地提高系统的准确率,双阶段模型有利于提高系统的召回率；两种模型的F值均比词袋模型高20%以上。三、针对实体属性抽取任务,使用了模式匹配模型和机器学习模型。模式匹配模型通过定义的正则表达式对实体属性进行抽取；机器学习模型通过CRFs算法训练的模型实现实体属性抽取。两种模型的综合使用在TAC2010-KBP的评测中取得了良好效果。

其他文献

中文问答系统中问题分类和关键词扩展的研究

问答系统与传统的检索系统不同,问答系统是针对用户输入的问题,先进行问题分析处理,然后通过检索的形式找到和问题相关的文档,然后对这些文档做进一步处理,抽取出和用户提出

学位

问答系统问题分类关键词扩展答案抽取

水稻条纹病毒浙江分离物的研究

近年来，水稻条纹叶枯病在我国水稻种植区大范围发生，尤以东部的江苏、浙江两省损失最为严重。本研究采集了浙江省7个市／县的水稻条纹病毒显症病样，经酶联免疫吸附检测(enzyme lin

学位

水稻条纹病毒病源鉴定检测序列分析

监督机构:社会服务机构的安全阀

社会服务机构中的监事或监事会应发挥和履行监督职能,对理事、理事会及其他职能部门的日常运作进行监督.从现有法律法规和政策文件来看,相较于对理事会等内部治理结构的明确

期刊

老年社会工作介入策略实用技巧

笔者之前曾撰文介绍了老年社会工作需求评估实用技巧[详见本刊2019年8月(下)],这次重点探讨老年社会工作的介入策略.rn介入策略有很多种,本文主要采用身心社灵(身体、心理、

期刊

社工机构品牌建设的体系和策略

近年来,虽然社工机构数量呈快速增长之势,但部分社工机构没有形成清晰的品牌建设思路,缺乏持续有力的品牌建设行动,进而导致机构难以形成品牌影响力.随着社工机构负责人品牌

期刊

玉溪尖山河流域不同植被类型坡面产流产沙规律研究

本文针对珠江流域上游的石灰岩溶地区雨水丰富，侵蚀严重的特点，选取云南省澄江县尖山河流域，运用坡面标准径流小区法研究了云南松次生林、退耕地一灌草丛、桉树人工林和坡耕地的

学位

水土流失植被类型坡面产流产沙土壤侵蚀回归方程珠江流域

抗击疫情,志愿服务昂然入列

众志成城抗疫情.从2008年四川汶川特大地震开始,志愿者们就不曾缺席任何一次重要突发事件的志愿服务,这次他们又昂然入列,奋战在全国抗击新冠肺炎疫情的战场上.各地民政和相

期刊

TAC-KBP评测中关键问题的研究

其他学术论文