分布式知识图谱的查询重写研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:alpaalpa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息时代的科技发展,使得互联网在长期以来积累了大量数据,这些大规模的数据普遍具有价值密度较低、数据种类丰富、数据来源广泛等特点。因而,在用户搜索信息时,相比于获取带有用户检索条件的标题信息的网页,更希望能够获取页面中所含有的知识。知识图谱中的RDF是当前的研究重点,针对RDF数据的知识图谱查询语言SPARQL也得到了许多研究和应用。然而传统的SPARQL查询语句由于缺乏推理能力,无法发现RDF数据中隐含的语义,从而导致查询得到的结果不够完备,无法全面地获取用户所想要的信息。同时,随着大数据分布式技术的发展,数据的规模也逐渐扩大,为了满足对大规模数据的存储以及高效实时的查询要求,如何合理地存储和查询RDF数据也成为了当前的研究重点。以往的基于关系型数据库由于可扩展性较弱,对于大规模数据的存储和查询越发难以适应,而现有的一些基于分布式的数据存储查询方法虽然在查询效率上有了一定提升,却没有利用RDF数据之间的语义。因此,为了让用户的查询结果更加完备并且提高查询效率,本文决定从SPARQL查询语句出发,利用更加适合本体语义推理的datalog逻辑程序对传统的SPARQL语句进行重写,充分挖掘RDF数据之间的隐含关联模式,让SPARQL语言具备推理能力,实现查询结果与查询语句的语义级匹配,从而让查询结果更加完备;同时,本文采用分布式的存储和查询方法,在保证查询结果完备性的前提下,通过优化SPARQL查询语句,进而提升查询效率。本文的具体工作如下:(1)根据SPARQL和datalog语句之间的相关性,给出了一种SPARQL和datalog语言的转换方法,然后针对datalog查询语言在不完备数据库下进行重写,间接地实现了对SPARQL查询语句的重写,从而实现了SPARQL语句查询结果的完备性;(2)给出了不完备数据库到分布式数据库的迁移方案,首先根据SPARQL查询语句的模式特点,设计专门适合SPARQL查询的HBase表,然后给出了一种关于RDF数据的转换方法,将RDF数据转换为适合存储到HBase中的结构化格式,最后通过Map Reduce计算框架将RDF数据批量存储到HBase;(3)针对提出的RDF数据存储方法,根据SPARQL查询语句的特点,通过分析SPARQL语句中变量和对应的查询语句之间的关系,提出了SPARQL查询语句的优化算法。本文在最后实验阶段采用了LUBM数据集作为对比测试,首先对重写语句和原语句的查询结果进行测试对比,验证了查询语句的重写效果确实在原有查询语句的基础上具备了相应的扩展;然后通过分布式环境和单机环境下的实验,以及分布式环境下优化前后的查询策略进行对比,验证了本文分布式下查询优化方法具备一定的高效性。
其他文献
在目前的工程应用与基础科学研究中,许多亟待解决的问题都可以被转变成求解最优化的过程。虽然传统的优化技术可以解决这些问题,但当问题变得更复杂更具挑战性时,它们便很难找到全局最优解。近几年来,随着计算机科学的发展,许多过去人类无法解决的复杂函数优化问题已经可以通过计算机来得到近似解。在求解过程中,人们创造了许多优秀实用的算法。元启发式算法作为一种随机优化策略,因为其能很好地解决复杂优化问题,所以它已成
中国互联网络信息中心2020年4月的报告中显示,我国上网的群众人数已超过9亿,互联网络的普及率也达到了60%以上。这一数据一方面说明了人民生活变得更加信息化,但另一方面也提醒我们的社会正在面临着一次前所未有的挑战,如何处理好海量网络文本信息成为了一个迫切需要解决的问题。如何使用自然语言处理技术(Natural Language Processing)分析海量的网络评论文本成为了研究人员的研究热点。
在计算机图像处理问题中,图像超分辨率(Super-Resolution,SR)采用数学模型计算的方式在尽可能保留图片原有纹理细节的情况下,将低分辨率(LowResolution,LR)图像转换成高分辨率(High-Resolution,HR)图像。研究表明,基于深度学习图像超分辨率方法的性能会随着网络宽度和层数的增多而提高,然而这些算法仍然面临一系列问题:1.单纯增加神经网络的深度或宽度会带来梯度
随着汽车行业蓬勃发展,出行面临的交通压力也愈来愈大,交通安全成为了人们关注的重点。分心驾驶是导致交通事故的重要原因,分心驾驶行为的检测已经成为图像分类领域中比较热门的研究方向。分心驾驶行为存在整体动态性不明显、动作变化幅度和动作空间较小的特点。如何在车内场景下,准确高效检测出分心驾驶行为已然成为分心驾驶图像检测的重点。目前分心驾驶图像分类大多采用传统CV算法或者深度学习方法,但是这些方法均存在以下
ICU具有治疗费用昂贵,死亡率高等特点,而目前国内ICU资源与发达国家相比较为匮乏,在此背景下国内近年来陆续诞生发展“AI+ICU”的智慧医疗企业,通过为医院ICU提供AI辅助诊疗服务可以实现患者病情早期预警、及时诊疗、防大于治,减少病人住院时长,降低治疗费用,加快病床流转率。作为辅助诊疗技术之一的ICU死亡率预测是一项在医学领域活跃了数十年的课题,患者ICU死亡率预测对患者的救援和ICU资源分配
软件测试是根据需求文档等,对被测试的软件通过人工或测试工具的方式,来检测软件是否满足预期的过程,在软件开发周期中起着重要作用,是确保软件质量的不可缺少的一个过程。软件测试的目的是发现软件中尚未发现的缺陷。越早发现的缺陷,缺陷造成的影响和损失就越小,其修复成本也越低。但是,在尽可能多地发现软件缺陷的同时需要降低投入成本和保证研发进度,手工测试的方法已经不能满足这种需求。软件缺陷预测技术可以利用历史数
大豆在世界范围内都有广泛种植,它是重要的可食用蛋白以及生物燃料的来源。随着基因测序技术的成熟,大豆基因组学的研究越来越受关注。为了突破对大豆这一关键农作物的认知并且提升大豆的价值,世界各地的研究者进行了大量的大豆基因测序工作,从基因组学的角度研究大豆已经成为热点。例如,可从基因组学角度出发,开发生物标记物对锈病进行预警、研究大豆对锈病的抵抗机制,这对提高大豆产量以及研发新型耐锈病大豆具有重要意义。
颅内出血是一种高发病率的脑血管疾病,准确的诊断和及时的治疗有助于提高患者的康复率。颅内出血的计算辅助诊疗系统对于医生的诊断和制定后续治疗方案是至关重要的。目前,计算机辅助诊疗研究可分为两大领域:颅内出血亚类型分类和颅内出血病灶分割。在颅内出血亚类型分类中,大多数研究使用CNN-RNN结合的网络架构。然而,这些研究都忽略了以下几个问题:(1)已有的CNN网络比如Res Net、Dense Net等在
网络是表达实体和实体间联系的一种重要形式,如社交网络、公路网和论文引用网络等。随着互联网的不断深入和发展,网络的复杂度也在不断增加,使得其承载的信息量也具有更大的发掘价值。在对网络数据的挖掘中,有很多具有重要意义的应用,如推荐系统、社区发现、节点分类和网络链接预测等。然而,大多数网络具有的自然表示形式是高维稀疏的,使得机器学习算法应用到网络挖掘任务中较为困难。因此,如何有效且高效地提取网络中的特征
近年来,停车困难、停车管理困难等问题日益加剧,为了解决上述问题,本文依托吉林省重点科技研发项目“基于车联网的城市停车位智能服务平台的构建”,开发了一套智能停车场监管平台。同时,考虑到停车需求,本文从大数据分析的角度,在传统停车场监管平台功能的基础上,搭建了大数据监管子平台。与现有的停车场管理系统相比,本平台采用一系列前沿的软件工程开发技术与理念。首先采用前后端分离式软件架构的理念,在前端采用企业级