RDF自适应存储与SPARQL查询优化技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:dark_hu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着RDF数据集的规模和数量不断增大,传统方案基于三元组表将RDF数据导入关系数据库进行管理缺乏结构信息,无法有效利用数据库的索引、找到优化的执行路径,导致该方案查询效率低下。为了解决这个问题,存在两条思路,一条是为RDF数据管理开发专用的查询引擎和优化器,另一条是将RDF数据转换成关系数据使之能利用关系数据的优化器,提高RDF数据的查询效率。第一条思路是一个革命性的想法,但由于RDF数据的适用范围很广泛,具体的应用特点仍在研究当中,很难找到一个适用于所有RDF数据的有效优化策略,该方法目前并不可行。本文推荐采用第二条渐进演化的思路,将RDF数据转换为关系数据存储。RDF数据转换需要面对结构设计、数据重组代价过高、SPARQL查询优化等几个问题,本文针对这些问题提出了一套解决方案,并形成了一个原型系统CODE3.0。  首先,本文提出一个将RDF数据转换成关系数据的解决方案,将每个主语对应的三元组集合映射成一条元组,将该主语的描述谓语映射成元组的属性,将宾语映射成为元组的属性值,然后设计一个用于存储该元组的表(该表所存储的数据称为一个元组束)。随着数据的导入,这种设计方法的最大问题是数据库中将存在大量稀疏的、仅包含少量元组的表。为此,本文提出一个基于格结构的元组束演化算法用于合并结构相近的元组束以提高存储效率,并定义了一个判断元组束演化质量的指标-元组束冗余距离。通过在FreeToGovCyc和Yago两个特征不同的实用数据集上做实验,本文验证了该算法的有效性。  其次,在关系数据库的实现中,元组束合并会导致对应表中原有数据的重写,这将带来大量时间开销。原因在于:现有关系数据库的实现中,元组属性值的排列顺序与其对应属性在表结构中的排列顺序相同。当两表合并后,由于共有属性在原表的顺序与其在新表的顺序不同,导致原有的元组无法正确解释,需要重构原表的数据。为解决这个问题,本文引入解释型存储方案,在每个数据页面中加入属性值对应属性这类解释信息。本文引入了三种解释型信息的页面设计方案,PAX-Interpret、Tuple-Interpret和Page-Interpret,并通过实验证明各自的优劣。  第三,RDF数据的查询采用SPARQL标准,为了支持SPARQL查询,需要有一个将SPARQL翻译成SQL的中间模块。由于数据存储方案发生变化,原有的SPARQL翻译方法无法适用,需要对其进行改写。针对两类基本SPARQL查询--星型查询和链型查询,本文提出了两个优化技巧,对SPARQL—SQL转换的结果进行优化。本文证明了这两个优化技巧的正确性和有效性。  第四,本文将之前提到的三个改进合并起来,形成一个支持RDF数据自适应存储的原型系统-CODE3.0。本文介绍了CODE3.0系统的缘起、发展历史、体系结构和具体实现中的需要注意的细节。
其他文献
中医学作为有中国特色的传统医学具有重要的社会价值。中医医案是中医临床思维活动和辨证论治过程的记录,是中医理法方药综合应用的具体反映形式,尤其是经过多年临床实践、具有
学位
Ad Hoc网络是一种不依赖于固定基础设施的、自组织的无线网络。网络中所有节点的地位平等,具有无中心、多跳路由、拓扑结构动态变化等特点。在军事、灾难救助、移动办公等领域
道路交通拥堵及其伴生的环境污染和安全问题已引起世界各国的广泛关注,成为影响经济和社会和谐发展的全球性问题。道路交通是一个由人、车、路和环境等诸多要素组成的系统,各种
学位
运算单元是高性能处理器芯片中的关键部件,在视频图像处理、无线通信、超算等领域,由于数据量并行性高,对数据运算的精度和实时性要求高,而且这些数据的处理中有大部分的加法操作
软件规模估算是软件项目管理的基础,其中软件功能规模估算是软件工程界研究的重点课题之一。COSMIC-FFP作为新一代的功能点规模估算方法,提供了更为灵活的软件模型和度量体系,因
电子病历的实施是医疗资讯发展的重要方向。由于本澳各医疗院所的资讯系统在建置过程中并未考虑到整合性、延伸性的问题,因此有许多限制的地方。例如院内医疗系统无法整合、跨
Internet正从一个主要用于交换和共享信息的网络演变成为一个开放的软件协同环境,像服务计算、普适计算、开放资源联盟(Open Resource Coalition)、网构软件等许多新型软件系
随着计算机科学、网络技术和通信技术的不断发展,多媒体技术也取得了很大的进步。现阶段,多媒体之间的同步问题成为了研究的热点。多媒体同步技术是多媒体关键技术,也是多媒体应
函数的支持向量估计方法被众多机器学习和模式识别研究者认为是现代机器学习最为成功的技术之一。支持向量机(SVM)试图在核诱导特征空间内寻找一个超平面,使得不同类别的数据