【摘 要】
:
命名实体识别和实体链接作为自然语言处理领域中的基本任务,目标是识别出语句中的实体指称,并映射到知识库中的相应实体上。随着知识库问答系统的出现,作为问答系统的基础步骤,面向短文本问句的命名实体识别和实体链接技术的研究具有重要的意义和价值。对于命名实体识别,本文将命名实体识别看作序列标注任务,使用神经网络模型实现,并在模型的输入层和解码层进行了改进。对于实体连接,本文针对面向短文本问句的实体链接面临的
论文部分内容阅读
命名实体识别和实体链接作为自然语言处理领域中的基本任务,目标是识别出语句中的实体指称,并映射到知识库中的相应实体上。随着知识库问答系统的出现,作为问答系统的基础步骤,面向短文本问句的命名实体识别和实体链接技术的研究具有重要的意义和价值。对于命名实体识别,本文将命名实体识别看作序列标注任务,使用神经网络模型实现,并在模型的输入层和解码层进行了改进。对于实体连接,本文针对面向短文本问句的实体链接面临的挑战,提出了通过外部语料扩充实体指称的背景知识以及抽取实体类型、实体关系和邻近实体作为候选实体在结构化知识库中的表示形式。本文主要研究内容如下:(1)基于BiLSTM+SoftMax的神经网络模型实现了命名实体识别,在预训练的单词向量后拼接单词的字符级别和词性特征作为模型的输入,同时由于BiLSTM和SoftMax无法考虑命名实体标签之间的依赖关系,解码层使用CRF替换SoftMax,为每个单词选择全局最优的标签。(2)抽取Freebase知识库中包含实体名称属性的三元组,进行数据清洗,构建成指称-实体映射词典,并利用实体流行度对候选实体集合进行有效筛选,得到大小合适的候选实体集合,最后重新定义字符串匹配算法,保证词典尽可能多的覆盖实体指称。(3)通过三个不同角度的特征实现候选实体消歧,即实体流行度特征:实体流行度表示实体在知识库中的热门程度,是实体固有属性,可作为实体消歧的辅助特征;基于问句的特征:由于结构化知识库缺少对实体的描述性文本信息,本文采用实体类别和实体关系作为候选实体在知识库中的表示,分别计算与指称上下文内容的相似度;基于相似实体指称的特征:通过语料训练的模型,得到指称的相似实体指称,作为指称的背景知识,同时选择候选实体的邻近实体,计算两者的相似度。(4)实现了面向短文本问句的命名实体识别和实体链接的系统,并在常用的问答数据集上对本文方法的有效性进行了实验验证,命名实体识别实验表明输入层加入字符级别,解码层是用CRF,结果表现最佳,实体链接实验表明所有特征组合后的结果最好,单个特征中实体流行度和基于相似实体指称的特征表现相对较好。
其他文献
体育场外部空间作为室外公共空间的一种,其作为体育场与城市衔接的过渡空间,一方面可作为承担体育场赛事的补充,另一方面具有市民室外休闲、娱乐、运动、交往等潜能。但现实
在以大数据,人工智能等为代表的高新技术快速发展的当今社会,信息安全已越来越受到人们的重视。其中密码学对数据的保护起到了举足轻重的作用,而信息技术也对密码学的发展和
朱利安·巴恩斯是当今英国文坛最重要的作家之一。由于其作品中的历史主题与自我身份追寻主题,巴恩斯被冠以后现代作家的头衔。他的新作《时间的噪音》聚焦俄国作曲家德米特
研究目的:利用高分辨率显微CT技术研究中国人恒牙根尖Delta发生率及其形态特征。材料和方法:从本课题组前期构建的牙及根管系统形态数据库中随机抽取根尖发育完全的1400颗离
论文综述了脂肪酸废水以及相似废水的处理方法和技术。因为废水具有高酸度、高COD、高盐以及高色度的性质,对环境危害很大,处理也很困难。如何使脂肪酸废水资源化是该领域急
随着社交网络在全球化环境中的日益普及,随时随地共享数据和信息的过程变得更加容易和快捷,云计算和云存储服务已成为主流。不幸的是,云存储上的敏感数据信息,很容易受到攻击
啶氧菌酯(Picoxystrobin)是一种人工合成的甲氧基丙烯酸酯类杀菌剂,具有高效广谱和适用范围广等特点。随着啶氧菌酯使用范围的扩大和使用量的增长,生态环境中啶氧菌酯的残留
光催化是环境污染治理的一个重要的手段之一,传统的光催化材料一般使用TiO2纳米颗粒对水体进行催化降解。但随着对TiO2光催化材料的研究越来越多,TiO2光催化材料的缺点也逐渐
随着我国市场经济实力的不断提升,人们对海域的开发利用需求日益增强,海域使用权进入市场流转已经成为必然现象,我国现行法律对海域使用权抵押的直接规定较少,无论是立法角度
由于微博、微信和门户网站等均是公开传播媒介,所以极易导致新闻内容被抄袭、篡改或非法扩散,继而给新闻内容原创者造成经济损失。文本相似度检测是用来解决新闻内容侵权问题的关键技术之一。然而,传统的文本相似度检测算法在处理海量新闻文本时难以进行高效的相似度检测。除此之外,传统方法一般是利用字符或词频来提取特征以实现文本相似度对比,难以解决因缺乏语义信息导致准确率不高的问题。为此,本文对新闻文本侵权检测方法