论文部分内容阅读
实体链接(Entity linking)旨在将文本中的实体指称词映射到已有知识库中对应的正确实体上。作为自然语言处理中的子任务,它能消除自然语言中的歧义,是帮助计算机实现自然语言理解的核心技术之一。当前主流的实体链接方法利用外部知识库为指称词的候选实体构造子图,然后将在该子图上抽取的全局特征与本地特征结合对候选实体进行排序,进而将排序在前的候选实体作为最终实体。该类方法虽然有效利用了候选实体之间的关系信息,链接性能好,但其运算量较大而且没有利用到文档中的指称词之间文本的语义信息。为此,本文在上述工作基础上,利用深度学习技术研究指称词间文本的语义信息对候选实体排序位置的影响,进而提出了词向量与实体向量联合训练的学习方法与指称词间语义关系增强的实体消歧模型,并构建了基于该模型的实体链接系统,该系统能够以可视化的方式显示链接结果,具体成果如下:1、提出了一种词向量与实体向量的联合训练方法。在基于深度学习的实体链接方法中,词与实体都需要使用向量进行表示,而且指称词上下文与候选实体要进行交互以计算指称词与候选实体的相似程度。考虑到已有词向量与实体向量联合学习方法参数复杂、较难调参的问题,该方法将词向量与实体向量联合学习在同一个向量空间中,提高了联合训练方法的效率。实验结果表明,该方法能够较好的表达知识库中实体间的结构信息与语义信息,生成的实体向量在实体类比推理与实体相关性实验NDCG@1指标上取得了最好效果。2、提出了指称词间语义关系增强的消歧模型。通过观察发现,一个文档中两个实体指称词之间的文本与指称词所对应的实体均有一定的语义相似性。基于此,本文在前面所生成实体向量的基础上,提出了指称词间语义关系增强的联合消歧模型,该模型使用深度学习技术建模指称词的上下文进而使用上下文语义信息帮助模型进行全局推断。通过将局部特征与全局特征结合起来进行训练,本文在相关实体链接数据集上取得了与当前最好结果大体相当的性能。3、构建了一个实体链接系统。系统前端界面接收用户提交的自然语言文本,经过实体链接模型对候选实体进行排序后系统将置信度最高的候选实体标记为正确实体,然后将该文本中指称词转化为指向正确实体对应页面的超链接,系统后台中还包含知识库信息更新机制以保证链接结果的准确性与实时性。该系统在自由文本上验证了本文所提出的基于深度学习的实体链接模型的有效性。同时该系统也应用到“基于开放网络数据构建知识图谱”等科研课题与其他下游任务中,具有重要的应用价值和发展前景。通过上述工作,我们提出的实体链接模型在相关数据集上取得了与当前最好结果相仿的性能,证明了本文工作的有效性。本文工作为协同实体链接方法提供了新思路,促进了实体链接研究方法的发展。