论文部分内容阅读
XML 已经成为了互联网上数据表示和数据交换的标准格式。随着XML 数据的日益增多,各种类型的存储方法也不断涌现,比较有代表性的有XML 专用数据库存储、面向对象数据库存储、关系数据库存储等。其中,基于关系数据库技术的成熟与其应用的广泛性,把XML 数据存储到关系数据库中仍是目前乃至今后很长一段时间内的常用有效手段。鉴于XML 模式与关系模式的异构性,要把XML 数据存储到关系数据库中首先要进行模式的映射。XML 到关系的模式映射方法可以分为以下两大类。一类方法是预先制定一组固定的映射规则,根据映射规则生成与XML 文档相对应的关系模式。另一类方法则是基于查询代价优化的存储技术。由于一个XML 模式可以对应于多个关系模式,基于代价的XML 关系数据库存储技术就是在多个关系模式中搜索一个查询代价最小的模式。本文主要研究基于代价的XML 文档在关系数据库的存储问题。通过查阅大量文献,作者首先对各种XML 的存储方法作了一个简要比较,尤其是对几种基于代价的关系数据库存储方法作了具体的分析与评价,指出了各个方法的优缺点。同时,提出了一种改进方法,该方法具有如下几个主要特征:第一,引入了一种基于XML Schema 的扩展模式图,扩展模式图能更完整、更直接的表示XML 文档的结构。第二,在传统的模式转换操作中增加了’|’操作,传统的模式转换操作无法处理多选一的元素或元素组,而’|’操作正是为多选一的元素或元素组提出的。第三,在求相邻模式时,考虑了扩展模式图中的节点类型,限制模式转换时把简单类型节点单独映射为一个关系,这样大大减小了模式搜索空间,有利于搜索算法更快速的找到最优模式。第四,根据哈希连接算法的特征引入一个新的代价估算模型,引入的代价估算模型能更精确的估算对应关系模式的查询代价。第五,对作为模式空间的搜索算法的贪心算法在相邻模式的代价比较时进行了一些优化,加速了代价比较过程,提高了算法性能。最后,进行了模拟实验,获得了较好的结果。