论文部分内容阅读
当今社会步入大数据时代,互联网上出现了海量的自然语言文本数据。自然语言文本数据中蕴含着大量的知识,但文本数据组织形式不固定,传统方法难以准确挖掘这些知识。知识库是以一定的表示方式组织、管理和使用知识的工具,其中存储了大量命名实体及相关知识,典型代表有网络百科和知识图谱等。自然语言文本中往往含有大量的专有名词,对理解语句起着关键作用,这些专有名词被称为实体提及。实体链接就是找到自然语言中的实体提及在知识库中的对应实体的过程。通过实体链接,自然语言中文本中的大量知识就能得到充分挖掘,进而语义搜索、智能问答等下游应用都能得到很好的支持。根据知识库类型的不同,实体链接任务可以分为面向网络百科的实体链接和面向知识图谱的实体链接。面向网络百科的实体链接是将自然语言文本中的实体提及链接到对应的网络百科实体上的过程。面向知识图谱的实体链接是将自然语言文本中的实体提及链接到对应的知识图谱实体上的过程。本文针对现有研究成果的不足,深入研究了两种不同的实体链接任务,并取得了以下研究成果:(1)在面向网络百科的实体链接任务中,现有方法忽略了训练语料中部分实体提及对应的样本过少的问题,导致这些方法准确率低。本文提出将实体链接任务按照实体提及不同分为大量子任务,进而提出一种基于元学习的面向网络百科的实体链接方法Meta-EL,利用元学习算法解决部分实体提及的少样本问题。在该方法中,为了解决部分子任务的类不平衡问题,本文提出了基于集合编码器的自适应系数机制,动态调整不同任务的训练过程。在多个真实数据集进行实验评估的结果表明,与现有工作相比,本文提出的面向网络百科的实体链接算法显著提高了准确性。(2)在面向知识图谱的实体链接任务中,现有工作没有考虑实体提及上下文的语义依存关系,也没有充分利用知识图谱中的结构化信息,导致这些方法准确率低。本文提出了结合语义依存分析和图注意力网络的面向知识图谱的实体链接算法DPGAT。针对实体提及语境中的语义依存关系,DPGAT算法利用语义依存分析算法构建语义依存图,进而使用图卷积网络对语义依存图进行编码。针对知识图谱中的结构化信息,DPGAT在知识图谱实体的表示学习中引入了注意力机制,根据对实体语义的重要性赋予知识图谱中的结构化信息相应的权重。在多个真实数据集上的实验结果表明,与现有工作相比,本文提出的DPGAT算法,显著提高了面向知识图谱的实体链接任务的准确性。