高可扩展的RDF数据存储系统

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:hrwhrw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  由于资源描述框架(resource description framework,RDF)具有表达灵活、简洁等优点,已被接受为表达元数据及万维网上数据互联的规范.近年来,其数据量在以飞快的速度增长.相应地,要求存储RDF数据的系统应具有高扩展性.介绍了一个高可扩展的RDF数据存储系统TripleBit.为尽可能降低存储空间消耗,采用了增量压缩和变长整数编码方法.并采用了数据分块的存储方法,既使得存储管理方便又使得存储结构紧凑,加速了数据读取.系统提供了基于启发式规则的动态查询计划生成方法,所产生的查询计划在执行过程中根据中间结果会相应作调整,以保持最优的执行顺序.对于多变量的查询,使用二步执行策略以减少查询过程中产生的中间结果.与目前流行RDF数据存储系统相比较,在存储空间上RDF-3X比TripleBit至少多40%;在查询性能上,比RDF-3X和MonetDB获得数倍的提升.
其他文献
随着DNA微阵列技术的出现,大量关于不同肿瘤的基因表达谱数据集被发布到网络上,从而使得对肿瘤特征基因选择和亚型分类的研究成为生物信息学领域的热点。基于Lasso方法提出了K-split Lasso特征选择方法,其基本思想是将数据集平均划分为K份,分别使用Lasso方法对每份进行特征选择,而后将选择出来的每份特征子集合并,重新进行特征选择,得到最终的特征基因。实验采用支持向量机作为分类器,结果表明K
虚拟化技术在云计算中广泛应用。传统虚拟化技术对操作系统的一些操作都进行了捕捉与封装,使其越来越复杂,同时也影响了操作系统的性能。针对众核平台的发展趋势和特点,面向众核平台设计并实现了一个轻量级的高性能虚拟机监控器——蜂鸟(Trochilidae)。多操作系统可以同时运行在此虚拟机监控器之上,同时对操作系统性能无损失。在提供传统虚拟机监控器功能的基础上,蜂鸟的代码量仅4000行左右(包括汇编与C代码
实例位置模糊在许多领域里都有着非常重要的应用,比如生物医学图像数据库和地理信息系统(GIS)。研究了实例位置模糊的空间co-location模式挖掘问题。定义了实例位置模糊的空间co-location模式挖掘的相关概念,包括实例位置模糊、位置参与率等;给出了基本算法来挖掘实例位置模糊的co-location模式;提出了两种改进算法,即基于网格的距离计算和减枝候选模式,以提高挖掘性能,加快co-lo
实时复杂事件处理系统(CEP系统)用于从原子事件流中检测出复杂事件,需要确保事件处理任务在截止期内完成。确保实时性的关键问题是如何估算系统中复杂事件处理程序(CEP程序)的最坏响应时间。现有针对一般程序的估算方法需要标注对象程序中子程序执行次数的取值范围。然而,CEP程序较为复杂,难以直接获知子程序执行次数的取值范围。虽然执行次数间存在关联关系,可以间接求解出取值范围,但这样得到取值范围不够严格,
当前不确定数据广泛存在于诸如传感器网络、RFID网络、基于位置服务、移动对象管理网上购物和市场监控等各种实际应用中。不确定Skyline查询作为不确定数据管理的一个重要方面,由于其在决策制定、市场分析、环境监控和数据挖掘等方面的重要作用,近年来在数据库和网络计算领域受到广泛关注。首先,概述了各种不确定数据类型上的Skyline查询定义,包括离散、连续概率分布模型以及不完全数据上的Skyline查询
数据库外包是将数据库管理工作外包给专业第三方,而数据库外包中需要解决的关键问题之一是查询结果的验证。提出了外包追加型数据库的问题。根据外包追加型数据库的特点,在现有验证数据结构的基础上,提出了一种新型验证数据结构Min-Max Hash Tree,可以有效地解决客户对查询结果进行验证的问题。对于数据所有者端,给出了基本的数据发送算法;对于服务提供商端,分别给出了一次性查询和连续查询的查询算法和查询
集合相似连接(set similarity join)是指在给定的数据集中,按照基于集合间覆盖关系的相似度计算方法来衡量数据之间的相似度、并找出所有相似度不小于给定阈值的数据对的操作。集合相似连接作为一种新的基本操作在很多领域中有重要应用。随着社会网络、移动应用以及在线服务的发展,使得数据收集的效率和规模得到了很大的提高,同时给相似连接操作带来新的挑战。根据集合相似的必要条件,提出了相似集合之间的
物化是列存储数据仓库查询中必不可少的操作,物化策略和物化技术直接影响到查询执行的性能,因此设计一种适应于列存储系统的物化策略和相关技术尤为重要.针对延迟物化可能重复读取数据块的缺陷,提出了基于带值路径的物化技术,简称VPM.首先,定义了一个描述物理执行中间结果的结构——传递块,该结构将用于重构的位置信息与实际列值相分离.在此基础上,对于给定的物理查询树,根据其操作节点是否需要某一列的值进行路径标记
应用需求的发展衍生各种查询类型,Top-k查询是交互环境下一种重要查询类型。由于数据的不确定性,传统数据上的Top-k查询技术和方法不能直接应用于不确定数据查询。在已有不确定数据上Top-k查询算法的基础上,提出基于二叉树的不确定数据上Top-k查询算法BTreeU-Topk;为了提高算法执行效率,对二叉树进行修剪操作进而提出BTreeOPTU-Topk和BTreePU-Topk算法。实验结果表明
为用户缓存实视图可以有效提高其OLAP查询的性能。但是,已有的缓存管理策略由于没有考虑用户在进行OLAP分析时的数据访问特性,在处理实视图动态选择问题时无法获得好的性能。提出了视图路径和视图树的概念,并以视图树作为客户端缓存中的实视图组织方式。提出了“逆路径增长法”来快速计算新到达查询的视图路径,提高了查询的响应速度。对于视图树的动态调整问题,以“保留路径”为参照,设计了合理有效的视图替换策略。实