论文部分内容阅读
知识图谱是由节点和边组成的巨型语义网,以大规模图的形式表示不同节点之间的语义关联。知识图谱作为现实世界中多领域数据的结构化存储形态,提供了数据之间的语义关联性,为人工智能更好地利用数据提供了可能。目前,人工智能正逐步向认知智能演进。认知智能将不再满足于通过对大数据的统计机器学习得到学习结果,而是更加关注学习结果的可解释性和大数据中蕴含的知识。因此,如何实现数据到知识的转化成为了认知智能亟需解决的问题。面对这一需求,知识图谱在传统知识工程发展的基础上并得益于Web3.0时代的海量数据积累,以其大规模、可解释、可推理等特点为认知智能赋能,并且己经广泛应用于智能搜索、自动问答以及可解释推荐等多个智能应用领域。可以说,知识图谱是推动人工智能向认知智能发展的重要引擎。区别于传统专家系统建立的知识库,知识图谱往往指大规模知识库,具有规模庞大并且数据稀疏的特点,这为知识图谱的表示带来了挑战。传统知识库往往采用符号化表示,即将每个节点和边都表示成唯一的符号。这种符号化表示虽然可以清晰地标识节点和边,但如果用于知识图谱的表示却会带来如下问题:第一,无法适应知识图谱规模的不断增长;第二,不能度量节点之间的语义关联性;第三,制约了知识图谱在其他智能领域的应用。近年来,受自然语言处理领域分布式表示的启发,知识图谱的分布式表示为上述问题提供了解决思路。为此,本文将聚焦知识图谱的分布式表示,分别在建模知识图谱局部结构特性和全局结构特性方面取得了一定的研究成果。首先,考虑到知识图谱以三元组为基本存储单元,因此本文以三元组为研究对象,通过对三元组内部约束特性的学习来获得知识图谱的局部结构特性。鉴于神经网络在词向量学习中表现出的良好的学习能力,及其对交互关系建模的灵活性与自适应学习性,本文进行了如下工作:(1)基于三分支神经网络的知识图谱分布式表示学习:基于三元组结构提出由三个并行分支组成的神经网络拓扑结构,分别对应三元组中的三个元素。通过分支之间连接方式的设计与连接权重的学习获得各个元素之间的交互关系,解决已有方法在建模实体与关系交互关系方面的局限性。最后,利用三分支输出的相似性对输入三元组的置信分数进行建模。(2)基于伪孪生网络的知识图谱分布式表示学习:三元组与事实型简单问答中的问题答案对存在对应关系。例如,三元组(中国,首都,北京)可以看作是事实型问句“中国的首都是哪里?”和答案“北京”的抽象,其中(头实体,关系)对应问句,尾实体对应答案。本文从三元组的上述特性出发,将其拆分为(头实体,关系)和尾实体两部分,通过伪孪生网络将这两部分变换到同一特征空间,并在该空间计算二者的相似性。此外,通过构建逆关系,生成形如(尾实体,逆关系,头实体)的训练样本,扩大训练样本数量,提升了模型的学习效果。三元组内的约束特性虽然可以反映知识图谱的局部结构特性,但却不能充分体现知识图谱的全局结构特性。在知识图谱中,两个节点不仅可以通过直接关系相连,还可以通过多跳序列相连,并且这些多跳序列往往包含和三元组相似的语义信息。为了进一步学习知识图谱的全局结构特性,我们将多跳序列和三元组之间的相关性应用于知识图谱的分布式表示学习中,具体工作如下:(1)基于泛化循环神经网络的图嵌入技术:从广义图的角度出发,提出子图相似性的概念来描述同一子图内多跳序列和三元组之间的相似性。并将循环神经网络泛化到图数据,用于计算多跳序列和三元组的分布式表示,进而在嵌入向量空间对子图相似性进行建模。区别于己有只关注关系序列的方法,本文考虑了包含实体和关系的完整多跳序列,以避免因信息缺失造成的歧义。由于知识图谱也是一种多关系图,因此该模型可以应用于知识图谱分布式表示。(2)基于子图相似性的知识图谱分布式表示学习:在子图相似性的基础上进一步关注知识图谱的序列结构,注意到知识图谱中的多跳序列是实体和关系的交替排列,并且可以分解为实体子序列和关系子序列。为了体现多跳序列的结构特点,提出与之相匹配的扩张型循环神经网络模型。此外,考虑到多跳序列与三元组之间相关程度的差异,提出序列级别的注意力机制学习多跳序列与三元组之间的相关性权重。知识图谱分布式表示可用于智能搜索、推荐及自动问答等领域。为了验证所提出算法的性能,我们用各算法得到的知识图谱分布式表示进行了链接预测和节点分类两个任务。实验结果表明,本文提出的知识图谱分布式表示算法可在不同维度提升现有算法的性能。