分布式RDF数据查询处理关键技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:TNicholas
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着RDF (Resource Description Framework)数据模型的广泛应用,万维网上越来越多的数据正在以RDF数据模型表示。在过去的十年间,RDF数据查询处理技术的研究重心主要集中于集中式单节点的RDF数据存储、索引及查询优化等问题上。然而,鉴于RDF数据持续快速的增长,集中式单节点的RDF数据查询处理系统无论是存储能力还是计算能力都已经无法满足需求,这使得研究分布式可扩展的RDF数据查询处理技术成为一种必然的趋势。与传统集中式单节点的RDF数据查询处理系统相比,分布式RDF数据查询处理的最大区别是将原来集中存储的RDF数据分散存储到多个通过网络连接的存储/计算节点中,以获得更大的存储容量和更高的并行处理能力。然而,数据分布式存储的引入,对提高RDF数据查询处理性能带来了新的挑战。在分布式环境下,查询处理过程中所产生的中间结果都需要通过网络传输到各个计算节点中。这使得网络通信开销成为影响分布式查询处理性能的主要因素之一。从这个核心问题出发,围绕分布式RDF数据查询处理的关键技术展开广泛深入的研究。首先,在分布式RDF数据查询处理过程中,RDF数据的划分技术在很大程度上影响着网络通信开销的大小。传统的RDF数据哈希划分算法无法利用RDF数据语义关联信息,导致网络通信开销较大,严重影响分布式SPARQL (Simple Protocol and RDF Query Language)查询处理性能。针对此问题,提出一种基于语义关联的RDF数据划分技术。该技术首先分析并抽取RDF数据的语义关联信息,并结合语义关联信息提出一种混合式的RDF数据划分算法。为了进一步提高分布式查询处理性能,采用轻量级的辅助信息传递策略对分布式连接运算的输入数据进行有效地过滤,从而达到降低分布式连接运算处理开销的目的。通过使用标准测试集LUBM (Lehigh University Benchmark)对基于语义关联的RDF数据划分技术进行性能测试,实验结果表明该技术显著地提升了查询处理性能。其次,由于RDF图结构复杂,相应地,SPARQL查询也会涉及到图结构复杂的连接操作。在处理此类SPARQL查询时,如果没有针对复杂图结构精心设计的数据划分算法,分布式连接运算所引起大量的网络通信开销会严重影响查询处理性能。针对此问题,提出一种面向复杂图结构的RDF数据划分技术。通过分析RDF图和SPARQL结构的特征,该技术采用基于路径的RDF数据划分模型,并根据RDF数据划分的评判标准抽象出基于路径的RDF数据划分优化问题。由于此优化问题是NP-Hard问题,设计高效的路径划分近似算法解决此问题。自底向上的路径合并算法可以进一步降低时间和空间复杂度。通过多种广泛使用的标准测试集对面向复杂图结构的RDF数据划分技术进行查询性能测试,实验结果表明采用该技术可以将查询性能提升1~3个数量级。最后,查询特征感知的SPARQL查询优化技术通过制定优秀的查询执行计划,可以从另一个方面解决网络通信开销的问题。具体来说,结合一种通用的RDF数据划分模型,使得该技术可以兼容现有的RDF数据划分技术。基于此模型,该技术设计一种高效的查询执行计划枚举算法计算生成最优的查询执行计划。此外,为了高效地处理结构复杂的查询,该技术还提出一种剪枝策略来缩小搜索空间和一种查询图简化算法降低查询图的规模。查询特征感知的SPARQL查询优化技术可以自主地分析查询特征并为之提供最适合的查询优化算法计算查询执行计划。大规模实验结果表明查询特征感知的SPARQL查询优化技术无论在计算最优查询执行计划的效率方面,还是在提升查询处理性能方面都有十分优异的表现。
其他文献
6 定流网络二次调节原理与特点分析传统的变量泵-变量马达流量耦合调节系统是一个典型多变量输入的非线性系统,如果能将系统中一、二次元件之间的耦合参数--压力或流量任意固
循环经济是人类应对资源约束和环境污染挑战而形成的一种新的发展理念和发展模式。本文通过对大屯公司的循环经济建设的优势、机遇及挑战的分析,得出发展矿区循环经济建设的可
《人体损伤程度鉴定标准》中有关创口和瘢痕长度的同一性规定,忽视了创口与瘢痕的发生发展与变化规律,其在司法实务中仅实现了形式平等,却忽视了实质平等,合理性存疑;且相关
案例教学法是《管理学》课程教学中一种十分重要的教学方法,它具有传统教学方法不可比拟的优势。本论文阐述了案例教学法的特点、案例分析的一般程序和教学中应注意的问题,意在
<正>奥拉西坦(oxiracetam)是γ-氨基丁酸的环形衍生物,化学名为4-羟基-2-氧代-1-吡咯烷乙酰胺,属吡拉西坦类似物,是目前备受瞩目的吡咯烷酮类促智药(nootropics)。目前临床上
商场的区划设计涉及到客流路线方便与否,商场营业额,商品的呈现度,吸引顾客的能力等,合理的商场区划设计能提高顾客的满意度、商品的知名度、美誉度,对增加商场的利润也是非常有帮
如何判断发展的科学性,是一个非常重要的论题。本文将从理性或框架层面探讨建立科学发展的评价体系,这个评价体系要能够比较完整地涵盖一个社会的主要内容,还能比较准确地把握这
互联网的高速发展带来了海量的数据,其中大量的非结构和半结构的数据不利于自动化处理。语义Web为计算机能够理解的结构化数据提供了技术支持,促进了人机协同工作。作为语义W
本文介绍了目前国内许多省市在医疗纠纷人民调解中开展专家咨询的具体形式,并通过与医疗事故技术鉴定、医疗损害司法鉴定进行比较,进而分析了专家咨询的优势,以期更好地推动
在高速公路建设中,出于对沥青路面维修成本和环保方面的考虑,旧沥青混合料的再生利用已经作为一个重要的课题摆在我们面前.为了了解更多沥青再生技术有关设备、工艺等方面的