基于Schema的Xquery查询优化与并行处理技术的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:xdjxbzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术及其应用的快速发展,XML作为Web上信息表示和数据交换的一种数据格式,在电子数据交换、科学数据表示、电子商务和搜索引擎等许多重要领域得到广泛的应用,Web上已经积累了大量的XML文档数据。由于XML数据是一种既有文档的特点,又具有结构化特点的半结构化数据,给XML数据上的查询带来了挑战。虽然由W3C组织提出的查询语言XQuery在功能上实现了对XML数据的查询,然而XML数据的半结构特征和XQuery的复杂性,使得传统的数据库查询和优化技术难以满足XQuery查询处理的性能要求。  为了提高XML查询处理的效率,本文主要研究基于pureXBase体系结构的XQuery查询优化技术和并行处理技术。本文提出了一种基于XML Schema的支持动态更新的索引SBDI,该索引充分利用XML Schema的路径信息来提高XQuery中路径表达式的查询效率。在索引构建中,先把XML Schema映射为一棵结构树,并采用DDE编码方式分别对XML文档和XML Schema编码,基于此编码建立XML索引和XML Schema索引,其中XML文档携带了XML Schema的编码信息。本索引不需要预留空间,在不影响索引结构的前提下能很好的支持对XML文档的更新操作。在此基础上,本文提出了基于SBDI索引的查询处理方式,其中包括针对路径表达式提出的两种优化策略和对FLWOR表达式提出的3个重写规则。  针对在大XML文档上的查询效率问题,本文结合pureXBase体系结构对纯XML数据库系统中的并行处理技术进行研究。本文主要分析了XML并行处理机制和PSPIB分片策略,并针对XMark测试基准20种查询提出了两种查询分解策略(路径中含有“//”的表达式和FLWOR表达式分解策略)和3种结果合并策略(消除冗余结果、类型转换和顺序访问)。  经过实验验证,本文提出的索引结构动态性能较好,对更新操作具有较小的维护代价,提出的优化策略也优于现有的一些优化方法;在并行处理方面,提出的查询分解策略和路径合并策略使得整个系统并行性能提高,大文档查询明显加快,加速比性能也较好。本文的研究成果将有助于提高数据库系统中对XML数据的查询处理效率。
其他文献
近两年来,随着深度学习的快速发展,传统方法无法解决的问题正在不断被攻克。特别是在图像、语音和文本领域,深度学习的技术结合更高性能的GPU计算,已经逐渐成为一种趋势。在
在信息化高速发展的时代,信息安全的重要性与日俱增,是世界各国都在面临的一项挑战。口令、IC卡等传统的安全认证方式已经无法满足人们的需求,应需而生的生物特征识别技术已
Web服务具有高度的互操作性、跨平台性和松耦合的特点,使得Web服务在互联网上得到广泛应用。然而用户对Web服务应用要求不断提高,单个Web服务已经不能满足用户的需要。随着Web
随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁。在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广
H.264/AVC是当前最新的视频编码标准,由ITU-T视频编码专家组和ISO/IEC运动图像专家组共同制定。该标准因具有很高的压缩性能和网络亲和性而得到广泛应用,然而这些优点都是以
随着网络的飞速发展和人们需求的快速增长,许多网络商店如卓越、当当网等应运而生。网上购物不但提供了各种各样便宜的商品,并且没有营业时间和空间的限制。用户可以购买任何
随着计算机和互联网等新兴媒体的迅猛发展,如何从海量的网页文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,传统搜索引擎在性能和用户体验上受到了较大的挑战,
随着互联网技术的发展,博客作为Web2.0的典型代表,已经成为传递资讯、表达意见,将个人空间和社会空间良好结合在一起的传播平台,在人们的政治、经济、文化生活中,扮演着重要
无线传感器网络一般具有大规模、自组织、随机部署、环境复杂、传感器节点资源有限、网络拓扑经常发生变化的特点。这些特点使拓扑分割成为挑战性研究课题。本文从网络拓扑分
互联网的飞速发展改变着人们的生活和工作方式,随之而来的是层出不穷各种各样的新的需求。为了应对这种变化并解决IP地址资源匮乏的问题,下一代互联网(Next Generation Inter