知识图谱分布式表示研究

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:lixiaobo59178
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是由节点和边组成的巨型语义网,以大规模图的形式表示不同节点之间的语义关联。知识图谱作为现实世界中多领域数据的结构化存储形态,提供了数据之间的语义关联性,为人工智能更好地利用数据提供了可能。目前,人工智能正逐步向认知智能演进。认知智能将不再满足于通过对大数据的统计机器学习得到学习结果,而是更加关注学习结果的可解释性和大数据中蕴含的知识。因此,如何实现数据到知识的转化成为了认知智能亟需解决的问题。面对这一需求,知识图谱在传统知识工程发展的基础上并得益于Web3.0时代的海量数据积累,以其大规模、可解释、可推理等特点为认知智能赋能,并且己经广泛应用于智能搜索、自动问答以及可解释推荐等多个智能应用领域。可以说,知识图谱是推动人工智能向认知智能发展的重要引擎。区别于传统专家系统建立的知识库,知识图谱往往指大规模知识库,具有规模庞大并且数据稀疏的特点,这为知识图谱的表示带来了挑战。传统知识库往往采用符号化表示,即将每个节点和边都表示成唯一的符号。这种符号化表示虽然可以清晰地标识节点和边,但如果用于知识图谱的表示却会带来如下问题:第一,无法适应知识图谱规模的不断增长;第二,不能度量节点之间的语义关联性;第三,制约了知识图谱在其他智能领域的应用。近年来,受自然语言处理领域分布式表示的启发,知识图谱的分布式表示为上述问题提供了解决思路。为此,本文将聚焦知识图谱的分布式表示,分别在建模知识图谱局部结构特性和全局结构特性方面取得了一定的研究成果。首先,考虑到知识图谱以三元组为基本存储单元,因此本文以三元组为研究对象,通过对三元组内部约束特性的学习来获得知识图谱的局部结构特性。鉴于神经网络在词向量学习中表现出的良好的学习能力,及其对交互关系建模的灵活性与自适应学习性,本文进行了如下工作:(1)基于三分支神经网络的知识图谱分布式表示学习:基于三元组结构提出由三个并行分支组成的神经网络拓扑结构,分别对应三元组中的三个元素。通过分支之间连接方式的设计与连接权重的学习获得各个元素之间的交互关系,解决已有方法在建模实体与关系交互关系方面的局限性。最后,利用三分支输出的相似性对输入三元组的置信分数进行建模。(2)基于伪孪生网络的知识图谱分布式表示学习:三元组与事实型简单问答中的问题答案对存在对应关系。例如,三元组(中国,首都,北京)可以看作是事实型问句“中国的首都是哪里?”和答案“北京”的抽象,其中(头实体,关系)对应问句,尾实体对应答案。本文从三元组的上述特性出发,将其拆分为(头实体,关系)和尾实体两部分,通过伪孪生网络将这两部分变换到同一特征空间,并在该空间计算二者的相似性。此外,通过构建逆关系,生成形如(尾实体,逆关系,头实体)的训练样本,扩大训练样本数量,提升了模型的学习效果。三元组内的约束特性虽然可以反映知识图谱的局部结构特性,但却不能充分体现知识图谱的全局结构特性。在知识图谱中,两个节点不仅可以通过直接关系相连,还可以通过多跳序列相连,并且这些多跳序列往往包含和三元组相似的语义信息。为了进一步学习知识图谱的全局结构特性,我们将多跳序列和三元组之间的相关性应用于知识图谱的分布式表示学习中,具体工作如下:(1)基于泛化循环神经网络的图嵌入技术:从广义图的角度出发,提出子图相似性的概念来描述同一子图内多跳序列和三元组之间的相似性。并将循环神经网络泛化到图数据,用于计算多跳序列和三元组的分布式表示,进而在嵌入向量空间对子图相似性进行建模。区别于己有只关注关系序列的方法,本文考虑了包含实体和关系的完整多跳序列,以避免因信息缺失造成的歧义。由于知识图谱也是一种多关系图,因此该模型可以应用于知识图谱分布式表示。(2)基于子图相似性的知识图谱分布式表示学习:在子图相似性的基础上进一步关注知识图谱的序列结构,注意到知识图谱中的多跳序列是实体和关系的交替排列,并且可以分解为实体子序列和关系子序列。为了体现多跳序列的结构特点,提出与之相匹配的扩张型循环神经网络模型。此外,考虑到多跳序列与三元组之间相关程度的差异,提出序列级别的注意力机制学习多跳序列与三元组之间的相关性权重。知识图谱分布式表示可用于智能搜索、推荐及自动问答等领域。为了验证所提出算法的性能,我们用各算法得到的知识图谱分布式表示进行了链接预测和节点分类两个任务。实验结果表明,本文提出的知识图谱分布式表示算法可在不同维度提升现有算法的性能。
其他文献
针对600MW机组启动时间较长、经济性较差的问题,在保证机组、设备安全运行的前提下,改进启动措施,进一步优化启动程序,真正实现机组安全、经济启动,为同类型机组启停积累了经
随着中国传统文化越来越为世界所认可,中国古籍也被更多地翻译成外国文字。鉴于中国古代官衔背后蕴含着丰富的中国特色文化内涵,在翻译中国古籍时如何处理这些古代官衔词汇就
针对单相电压型三电平中点钳位(NPC)整流器,首先分析其工作原理,建立其基于开关函数的数学模型。针对单相三电平整流器直流侧两电容电压调节不平衡问题,探讨了一种基于空间电
1991年5月滇西北之行,我在丽江、中甸、宁蒗的纳西族及摩梭人居住地辗转。原计划以纳西族东巴文化“祭风”(情死道场)之仪式音乐和今日永宁的音乐生活为题作两篇微形调查报告
<正>申克(H.Schenker 1868—1935),波兰-奥地利音乐理论家、曾在维也纳音乐院从布鲁克纳学习,他的早期作品曾被勃拉姆斯推荐出版。他以教授私人学生与著作为业,他创始的音乐
乐教乐学云平台不仅对传统教育方式做出了优化、辅助、补充,而且构建了一种融学生、家长、学校为一体的三者信息分享和互动的现代化科技教育模式,发挥着重塑教育生态系统的重
<正> 土家族主要分布在湘鄂川黔边结合部地区,人口近300万。语言属于汉藏语系藏缅语族彝语支,声调系统近似西南官话。由于土汉民族长期杂居和相互影响,目前土家民歌已与当地
期刊
<正>由于经济的发展带来生活水平的日渐提高,饮食习惯由原来的植物型向动物型转变,加上糖尿病知识以及健康生活理念不能普及,使中国糖尿病患者日益增多,据统计已达到人口总数
以可编程控制器为核心构建的控制系统与机组的控制系统相结合,构建一个局部电源供电网络,能够协调多路电路的分配,切换的问题,并使得一台机组能与多路进线进行同期与反同期的