基于低维向量空间的知识图谱表示学习研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:coppi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱表示学习是人工智能和知识图谱领域的热门研究问题,旨在将知识图谱中实体和关系投影到连续向量空间,通过训练知识图谱嵌入模型,学习每个实体关系的低维稠密向量,进而自动预测图谱三元组中任一缺失成分,实现知识图谱补全和知识图谱推理等核心任务。知识图谱表示学习可以在离散符号化知识图谱和深度神经网络模型之间搭建有效的知识特征通道,极大地提升知识图谱在各项人工智能任务中的应用价值,为认知智能乃至通用人工智能的下一次技术进步奠定基础。近年来,为了提高知识图谱嵌入模型的预测精度,前沿模型的发展趋势呈现高维度,高算力,高耗时的特点。这类高维大模型通常采用几百维乃至上千维的高维向量表示每个实体,在基准数据集上取得少许精度提升。然而,当面对包含数百万或数十亿个实体的大规模知识图谱时,高维大模型需要海量的训练成本和存储空间,难以根据下游应用需求快速更新知识图谱表示,也无法部署在移动设备等低资源硬件环境上,阻碍了知识表示学习技术的发展和普及。本文聚焦在低维向量空间条件下的知识图谱表示学习方法研究。在避免盲目参数扩张,贴合实际应用需求的前提下,分析模型成本和模型精度的影响因素,优化知识图谱嵌入模型的关键技术组件,突破低维向量空间下的模型性能瓶颈,实现轻量化、高精度、低成本的知识图谱表示学习解决方案。本文的主要研究内容包括如下三个方面:1.基于多源数据整合的知识表示学习增强框架。首先,针对知识图谱实体的外部信息分布不均衡问题,本文提出了基于双重邻居的知识实体嵌入增强框架Co NE。通过构造双重邻居信息,整合文本描述和拓扑邻居中的实体特征。设计基于深度记忆网络的编码器模型对双重邻居信息编码,用以增强知识图谱嵌入模型的实体嵌入向量。其次,针对低维向量空间表征能力不足和高维教师模型训练成本高的问题,本文采用知识蒸馏方法增强模型的训练标签序列。通过设计一种新颖的多教师主动蒸馏框架,整合多个预训练低维模型的预测结果,为学生模型提供有效的监督信息。实验结果表明本文提出的方法可以显著提升低维知识图谱嵌入模型的预测精度和训练速度。2.基于低维欧式空间的知识表示学习高效模型。首先,针对现有双曲几何模型的计算复杂度过高问题,本文提出了两个基于欧式空间的轻量级知识图谱嵌入模型。Rot L模型简化了双曲空间运算,同时保留了双曲模型的灵活归一化效果。Rot2L模型进一步采用一种双层栈式“旋转—平移”变换模块,提高模型的表征能力,同时保持较低的计算复杂度。其次,针对现有模型预测精度不足,三元组置信度难以评估的问题,本文提出了一种基于因果干预理论的知识图谱嵌入模型置信度测量方法。首先本方法依次修改输入实体每个维度的向量数值,构造出多个邻域干预向量。然后通过评估知识表示学习模型干预前后预测结果的稳健性来推断预测置信度。3.基于对比学习分析的知识表示学习训练策略。首先本文深入剖析了知识表示学习和自监督对比学习之间的关联。基于对比学习领域最新分析成果,提出全新的知识表示学习训练策略Ha LE。针对现有基于负采样损失函数训练周期长,训练梯度不稳定的问题,本文设计了一种基于查询采样的新损失函数,它可以更高效地实现两个重要的训练目标,正样本特征对齐和实体分布均匀性。其次,本文分析了低维双曲线模型中的非线性函数的难度感知能力,由此提出了一种轻量级的难度感知激活机制,可以帮助知识图谱嵌入模型专注于困难实例并加快收敛速度。实验结果表明,Ha LE策略训练的模型经过短时间训练即可获得高预测精度,并且在低维和高维条件下达到接近现有最优模型的性能。
其他文献
利用专家共识会议法,构建了由“产业生态”、“基础设施”、“赛事”、“俱乐部”和“社会影响力”5项一级指标组成的全球电竞之都评价体系,并综合运用熵权法、TOPSIS法和障碍度模型对当前全球15个城市全球电竞之都建设情况进行了评价。研究发现:15个城市的全球电竞之都建设情况可划分为三个梯队,洛杉矶和上海处于第一梯队,北京位于第二梯队;北京在电竞“产业生态”一级指标评价中排名第一,上海在“基础设施”、“
期刊
<正>为增强教育服务能力,满足学生和家长对课后延时服务的需求,2019年10月,重庆市在全市中小学服务性收费项目中增加“课后延时服务费”项目,具体收费标准由各区县发展改革委会同教委制定。丰都县收取中小学生(幼儿园、小学、初中)课后延时服务费于2020年秋季执行,现已执行2年,课后延时服务受到了家长的好评,丰富了中小学生的课后生活。2022年,丰都县市场监督管理局开展教育收费专项检查时,发现延时服务
期刊
乡村振兴战略提出以农村为基础,以“三农”为核心的发展目标作为实现乡村振兴的重要内容。而乡村旅游在农村资源开发、农村消费、市场开拓以及乡村振兴方面发挥着重要作用。基于这一背景,本文对金华市乡村文化“IP”资源开发与文创品牌建设加以分析,探讨其文化资源优势、品牌建设现状以及存在的问题,制定针对性建议。
义务教育课后服务生态演进分为萌芽无序期、市场主导期和减负提质期。“双减”政策下课后服务的性质、观念、目标、关系发生了根本性转变,实现了从“市场化竞争”转向“公益性服务”的教育公益属性回归,从学科“应试培训”转向非学科“素质能力提升”的教育观念革新,从“不托不管”转向“延时服务”的课后增值性服务供给,从市场化“双向互动”转向政府主导“多元协同”的边界权责关系。面向未来,需进一步构建科学化、系统化、有
目的 探讨胃癌患者发生抑郁的影响因素,为制定有效的预防、干预措施提供借鉴。方法 检索CNKI、维普、万方、CBM、PubMed、Embase、Web of Science、The Cochrane Library、CINAHL、Scopus数据库,查找建库至2022年1月1日国内外公开发表的有关胃癌患者抑郁影响因素的研究,完成文献筛选、质量评价和资料提取,并报告研究结果。结果 共纳入14篇文献,研
黄河流域传统村落与非物质文化遗产都是传承中华优秀文化的重要载体,识别二者空间相关性及其影响因素实现协同发展是增强黄河文化软实力和影响力的重要保障。以黄河流域传统村落与非物质文化遗产为研究对象,基于数量空间关系模型、双变量空间自相关分析方法,对二者空间相关性进行分析,运用多项Logit回归模型对其空间相关性影响因素进行探讨。结果显示:1)传统村落与非遗数量分布不均,各省区差异较大。2)传统村落与非遗
已有研究揭示,信息技术的广泛而又集约式发展,引发深刻的技能偏向性技术进步,进而促使一个国家劳动力市场配置逐步提升劳动力技能结构,在特定条件下,会引发中等技能劳动力占比下降、高、低技能劳动力占比上升的U型分布态势,即极化现象。国内研究大多证明了2001-2012年期间中国制造业出现了劳动力市场极化现象,验证了信息化在这一过程中的促进作用。本文根据2001-2017年数据,指出中国总体上并未形成劳动力
基于某6.0 Mt·a-1常减压蒸馏装置常一线管线壁厚测量,确认存在腐蚀情况,对管线进行形貌检查,使用化学成分检测、金相检验、气相色谱(GC)、X射线能谱(EDS)、X射线衍射(XRD)等方法对常一线介质、腐蚀部位、结垢物质进行化验分析。结果表明:该管线腐蚀为HCl-H2S-H2O体系腐蚀与冲击磨损交替作用形成的复合腐蚀所致。提出从加强预脱水、改善低温防腐环境pH值、增加层流底层厚度三方面采取措施
期刊