论文部分内容阅读
XML是一种可扩展的标记语言,由于其丰富的表达能力和自描述性、灵活性等特点,被广泛应用于Web环境下数据的表示和共享。随着大量数据以XML格式保存,如何高效、系统、科学地管理XML文档已成为数据库研究领域中的一个重要挑战。本文首先研究了从XML模式到关系模式之间的映射,然后给出了一个基于Schema的XML存储模型,在这个存储模型基础上研究了XML查询语言和索引查询技术;结合多种索引方法,提出了双路索引模型,最后是它的查询处理算法,大体上包含以下内容:(1)由于采用传统的模型来存储XML文档虽然模型简单,但是它仅适合于传统的以从上到下或从下到上顺序遍历XML文档,查询效率较低,本文在改进的基础上提出了一个基于Schema的XML存储优化模型。利用在实际应用中经常存在的XML数据的模式信息-XML Schema,根据相应的转换规则,生成基于关系数据库的存储模型。与传统方法相比,其优点在于:将传统的大表集中存储分散成相互关联的小表存储,适合从任意层次遍历XML文档。当文档比较大、节点数比较多时,利用该存储模型进行查询,程序不必一层一层逐个节点遍历文档,提高了查询效率。此外,它还为索引的建立提供一个相对持久和稳定的参考。(2)在基于Schema的XML存储模型上,提出了一种新的XML文件索引方法-DI索引。目前的路径索引多倾向于解决绝对路径表达式的查询,而对于相对路径表达式的处理,得到满足路径表达式的结果可能需要遍历整个索引,付出较高的查询代价。DI索引方法采用倒排文件索引机制及中文分词技术,建立了绝对索引模型和相对索引模型,能有效支持各种形式的路径表达式,又不会占用过大的空间。绝对索引模型将查询路径表达式缩短,减少了比较次数,相对索引模型建立父子索引表补全路径,用较小的索引结构替代原始查询。利用这种索引方法克服了元素查找总是从树的根部开始进行的缺陷,节约了索引存储空间,提高了查询速度。(3)基于DI索引,本文还研究给出了相关查询处理的算法。采用Fabric索引和DI索引,对3种不同的查询语句进行了测试,给出了模型仿真试验结果。实验结果表明,该方法可以有效地提高查询处理的性能。