论文部分内容阅读
对话系统是自然语言处理研究领域的一个重要分支,近几年在工业界的应用也非常广泛。对话系统不仅可以帮助人们完成特定的任务,也可以回答特定的知识,与人们进行闲聊。在人机对话的过程中,经常会涉及到很多的知识,为了使机器的回复更加的丰富并且有意义,因此将知识图谱融入到多轮对话中具有十分重要的意义。基于知识图谱的多轮对话是以知识图谱为中心,使用实体发现和链接等技术将多种信息融在一起,实现多轮对话。本文重点研究了基于知识图谱的多轮对话系统和实体链接与发现这两个任务,并且将研究成果应用于冬奥会领域的知识对话。首先,在基于知识图谱的多轮对话任务中,本文主要使用基于端到端的方法研究多轮对话。在对基线系统分析过程中,发现基线系统没有有效利用对话历史信息和没有对知识图谱进行合理地建模。针对对话历史信息利用问题,本文使用层次化建模方法对对话历史进行建模,并在此基础之上,本文分别使用词级别和句子级别的注意力机制有效的利用了对话历史信息。针对知识图谱建模问题,本文尝试使用Trans D方法对知识图谱进行向量化,有效的学习了知识图谱中实体和关系信息,从而提升对话中知识的利用效果。实验结果表明,层次化建模方法和基于Trans D的知识图谱建模方法可以有效提升对话系统中生成回复的效果。其次,在实体发现任务中,为了解决数据稀疏问题,本文提出了字词混合的命名实体识别模型,并且使用卷积神经网络进一步提取上下文信息来提升实体发现的效果。在多轮对话的实体链接任务中,由于对话的连续性和信息省略的问题,本文融合了对话历史信息并且使用注意力机制来提升实体消歧的效果。通过实验发现,我们提出的方法相比于基线模型均有较大的提升。最后,本文将研究成果应用于冬奥会领域的知识对话中,设计并实现了基于冬奥会知识图谱的多轮对话系统。在系统实现过程中,本文提出了基于知识图谱的半自动化数据生成方法,有效的解决了缺乏冬奥会领域对话数据集的问题。说明相关研究具有较高的应用价值。