大规模知识图谱嵌入方法的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:sherpa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是人类知识的一种显式表示方式,作为近年来人工智能研究的热点领域之一,已被广泛应用于语义搜索、人机互动、辅助决策等智能应用场景。然而,在各种知识图谱驱动的应用中,往往需要借助知识图谱嵌入技术将知识图谱中的元素表示为低维稠密的向量形式,弥补显示知识表示的不足,以满足大量推理、分析和预测的需要。虽然知识图谱嵌入已有很多研究工作,但仍存在知识表示不准确和语义不够丰富的明显不足:(1)基于翻译思想或距离度量的模型不能充分表示知识图谱中的复杂关系;(2)部分模型仅利用知识图谱中的三元组结构信息;(3)多数模型忽略了知识图谱中概念和实例的区别。针对上述问题,本文探索如何有效利用知识图谱中的多源信息作为三元组结构信息的补充,提高知识嵌入结果的质量。主要研究工作包括:1.提出了一种融合实体类型的知识图谱嵌入模型TransET:针对现有知识图谱嵌入模型忽视了实体类型的问题,TransET设计了一种基于实体类型表示的圆周卷积映射函数,用于构建实体在不同类型下的表示。然后利用基于翻译的思想学习映射后的实体以及关系构成的三元组的结构信息。同时,在学习时以一定的概率限制负采样的实体的类型,加大属于相同类型的实体之间的差异,同时兼顾它们之间的某些相似性。TransET模型具有丰富知识表示的语义信息,并在一定程度上解决复杂关系问题的特点。2.提出了考虑概念和实例的联合嵌入模型JECI和JECI++:针对现有知识图谱嵌入模型未区分概念和实例的问题,JECI模型设计了一种基于邻居信息和所属概念信息的圆周卷积预测函数,用于预测目标实例。该预测函数将概念和实例联系起来,使之共同得到学习。针对JECI模型中存在的普适性较低和复杂度较高等问题,JECI++模型简化了层级概念,并将关系考虑进邻居信息中。JECI模型和JECI++模型在负采样时,对负样本中的实例类型进行了限制,进一步提高了知识表示的质量。两者均可解决概念和实例差异带来的知识表示的质量问题,以及缓解拥有拥有相似关系或属于相似概念的实例在嵌入空间中聚集的现象。在从Freebase、DBpedia以及YAGO等真实知识图谱基础上中构造了评估数据集,采用链接预测和三元组分类等经典知识图谱嵌入任务对本文提出的模型进行了系统评估,并与经典模型进行了系统对比。TransET模型的实验结果比最优基线模型高2.2%~9.8%,JECI++模型的实验结果比最优基线模型高1.7%~18.6%。结果表明:(1)实体类型中蕴含的信息有助于学习到更好的知识表示结果;(2)概念和实例的区分对于得到更加精准的知识表示很有用;(3)实例的邻居信息可以提高相似实例的辨识度;(4)圆周卷积可以充分捕获对象间的语义关联。
其他文献
在传统多标记学习中,每个对象由单个特征向量构成的示例表示,学习系统的目标是构建由示例空间至标记空间幂空间的映射。一般而言,对象的特征表示对于学习系统的泛化性能有着重要影响。如何突破传统的单特征向量表示,提升多标记学习系统泛化性能,值得进一步深入研究。本文围绕多标记特征表示开展研究,主要做了如下两方面的工作:一方面,“类属特征(label-specific features)”表示通过为每个标记构造
零样本学习作为机器学习中的一项新的挑战,越来越多的研究者将注意力放在了这一项新的任务上。零样本学习指的是利用类别辅助信息,在没有对应类别训练样本的情况下,对该类别的样本做出正确预测的任务。零样本学习可以根据测试集中样本的类别分为传统零样本学习和广义零样本学习,也可以根据使用数据的不同,分为类别归纳示例归纳式、类别直推示例归纳式、类别直推示例直推式三种。在先前类别归纳示例归纳式的零样本学习研究中,对
图像内容理解是计算机视觉领域重要的研究目标。分割,尤以细粒度图像分割,是实现图像内容理解的一个重要途径。全景分割,作为细粒度图像分割任务中的一种,可以帮助计算机更全面的理解图像中每一类物体的位置、形状等信息,它的有效解决,将有助于自动驾驶、行为识别等多个问题的发展。本文主要着眼于神经网络建模、针对全景分割问题的计算机视觉方法研究。更具体来说,是通过对数字图像进行像素点级别的分类实现对图像中物体的识
随着社会与现代科技的发展,人们将面临着越来越多的数据,传统的机器学习方法计算开销大,通常难以应用到大规模数据的学习问题上。而当面对大规模学习问题时,在线学习往往是一种易于应用且高效的方法。现有的在线学习方法大致可分为线性模型和核化模型两类。其中,线性模型的计算开销小,所以计算速度快。但当面临复杂数据时,这类模型在精度上很可能表现不佳。后来有研究者引入核技巧(kernel trick),提出了核化模
多标记分类研究中,一个示例(由属性/特征向量表示)会关联多个类别标记,利用多标记数据可以构造一个从示例映射到类别标记集合的分类模型,这样的学习框架适用于多义性对象建模。传统的多标记分类任务中,通常假设实例对应的标记集合是完全准确的。然而,在某些复杂场景下(如网络图片标注),与示例关联的候选标记集合往往含有噪声,需要对含噪多标记分类问题进行研究。本文针对多标记分类中噪声标记问题与多标记分类中特征构造
两阶段学习算法是将一些传统机器学习算法由原始的一步解决问题的过程拆分为两个不同的学习阶段,而问题求解的本质保持不变的学习框架。最初,两阶段学习算法的引入是用来解决核Fisher判别分析(Kernel Fisher Discriminant Analysis,KFDA)在处理高维小样本数据时所面临的病态问题。具体地,两阶段核Fisher判别分析(Two-phase Kernel Fisher Dis
在标准偏标记学习框架下,每个对象由单个特征向量进行刻画,同时与多个候选标记相关联,其中仅有一个未知的真实标记。另一方面,在真实世界问题中对象的性质往往更为复杂,每个对象拥有多源的特征表示并且未知的真实标记也并非唯一。一般而言,有效的特征表示能显著提升学习系统的泛化能力,而偏标记特征表示任务由于标记的真实信息未知而具有较高挑战性。本文针对偏标记场景下的特征表示及融合展开研究,主要包括以下两方面工作:
医学图像配准是医学图像处理研究领域的一个重要任务和技术难点,对于图像融合、检测肿瘤生长等临床工作有重要意义。图像配准旨在寻找将一幅图像映射到另一幅图像的空间变换。传统的配准方法迭代优化每一对图像的目标函数求解空间变换,存在配准时间长、计算量大的问题。近年来,随着深度学习在医学图像研究领域的广泛应用,基于深度学习的图像配准成为极具前景的研究方向。基于深度学习的有监督配准方法虽然在配准速度与精度方面都
随着网络中数据信息的快速增长,知识库的规模也与日俱增。由于知识库中数据量的庞大规模以及复杂结构的限制,普通用户很难快速有效地获取需要的信息。因此,基于知识库的问答,运用自然语言处理技术,对于用户提出的自然语言问题,自动利用知识库存储的三元组信息(即知识)进行解答,显得尤为迫切和重要。目前,基于知识库的问答研究引起了国内外学者的广泛关注。根据回答问题所需要的三元组的数量可以将知识库问答分为两类:单关
多模态知识表示学习旨在从多模态数据中学习到关于其中数据、信息或知识的低维稠密向量形式的特征表示,作为近年来人工智能研究的热点问题之一,在多模态语义检索、视觉问答(VQA)、多模态情感分析等智能场景中具有重要应用价值。虽然多模态数据能为许多任务提供比单模态数据更多和更有用的特征信息,但如何从多模态数据获得有效的表示学习结果一直是多模态知识表示学习研究的核心问题。本文首先提出了一种基于门控层级融合的多