XML查询处理技术研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:star010lxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML已经成为互联网上数据发布和数据交换的事实标准。然而由于其强大的数据表达能力,XML完全可以在互联网和数据库之间扮演更加重要的角色。XML是典型的半结构化数据,关系数据库管理系统由于关系模型本身的缺陷,并不适合管理XML数据。现在互联网上已经存在大量以文件形式存放的XML数据,这些数据包含了丰富的信息,因此一个可以从文档中抽取信息的XML文档查询工具是很必要的。 近年来,随着XML相关技术的深入研究,XML查询已经具备了坚实的技术基础。传统数据库的大部分成熟技术可以比较方便地移植到XML查询上来。半结构化数据查询技术方面的研究成果也可以直接应用于XML查询。更为重要的是,W3C已经为XML定义了模式、查询语言和查询形式语义等数据库才具备的特征,这使得采用类似用SQL查询关系数据库的方式进行XML查询成为可能。 虽然XML查询已经有了很好的技术基础,但由于XML数据自身的特点,以及和传统数据模型的差别,XML查询在理论上和实现上都还存在很多难点。本文结合我们实现的XML文档查询系统XDQuery探讨了XML查询的各种实现技术。由于W3C提出的XQuery已得到广泛的支持,很有可能成为正式的标准,因此XDQuery采用它作为查询语言。XQuery包括的内容非常丰富,通过分析它的使用案例,并考虑到实现的难度,我们着重于实现一个核心的功能子集,同时针对需要扩充了更新的能力。根据XQuery的形式语义,并参照Lore系统,我们定义了XQuery的逻辑操作和物理操作。与关系模型不同,XML数据是树状结构,路径表达式在查询中非常关键,而单纯的值索引远不够用。我们借鉴Lore系统的DataGuide实现一个更适合XML数据的路径索引。此外,我们还考虑了索引的存储问题,将索引存成XML文档,使其具有和源文档同样的可移植性。XDQuery采用基于代价的查询优化策略,同时也利用启发式规则做一定的逻辑优化。和传统数据库系统不同,XDQuery是内存查询处理系统,不存在内外存的传输瓶颈,于是我们采用的是基于基准操作次数的代价模型。最后,我们通过实验数据分析和验证了XDQuery采用各项技术,包括索引及其存储技术、文档规模和查询优化本身的代价等对查询性能的影响。
其他文献
计算机领域的一个发展趋势是CPU运算速度的提升要大大快于磁盘的数据传输效率的改进,它们之间的差距不断扩大,逐渐成为分布式计算中不可忽视的一个因素。在这个背景下,对并行程
WebServices作为一种新的分布式计算技术,凭借其平台无关性、消息导向性和协议可组性等特点,从其一出现就迅速得到了工业界的青睐,并且形成了多个国际性组织研究和制定各种规范
该文基于作者在四川川大智胜软件股份有限公司实习期间参加的军航系统和其他民航系统的研发工作,主要介绍了空管自动化系统中系统监控模块中的若干关键技术.在以往成果的基础
该文在介绍了不同基因序列比对算法及其各自优缺点的基础上,针对Smith-Waterman算法着重分析了一些并行化方法,并结合集群式(Clustering)计算机系统提出了一种全新的并行优化
聚类问题一直是数据挖掘领域的一个重要研究方向。虽然传统的划分聚类算法方法简单、执行速度快且效率高,但是由于其迭代法和爬山法的本质,使得算法容易陷入局部最优而得不到全
随着Internet和企业计算的发展,其中最重要和基础的应用是Web应用。这带动了在服务器上集中商务逻辑的发展以及电子商务的普及。J2EE是Sun公司推出的一种利用Java2平台来简化
Internet主机的数目正以每两年增加3倍的速度增长,同样Internet流量正以每3个月增加1倍的速度增长,同时由于光纤技术和密集波分复用(DWDM)技术的发展使得链路传输速率已经基本
随着网络技术的发展和通信技术的进步,人与人的交流日趋频繁,由此视频会议系统成为研究的一个热点。本课题所开发的基于互联网的IP多播桌面视频会议系统采用TAPI和分布式组件技
移动代理是90年代中期刚刚兴起的一种分布式计算模型,目的是使程序的执行尽可能靠近数据,降低网络通讯开销,节省带宽,平衡负载,加快任务的执行,从而提高分布式系统的处理效率。CORB
近年来随着无线通信技术的快速发展,无线网络得到广泛应用。传统TCP协议由于不能区分丢包原因,将所有丢包原因都认为是网络拥塞,错误的启动拥塞控制,降低传输速率,严重影响吞