XML数据查询中值匹配查询代价估计

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:zhanghu216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,XML(Extensible Markup Language)己经成为互联网上数据发布和数据交换的事实标准并受到越来越多的关注。虽然XML查询技术己经取得一些研究成果,但由于XML文档自身的特点,XML查询技术在理论上和实现上都还存在很多难点。本文对XML查询技术进行深入研究,对XML数据查询算法研究现状、发展以及应用进行了分析和总结。特别是分析了XML查询优化技术的XML统计数据模型、XML数据在数据库中的存储、XML数据的解析和查询处理的方法。目前已经提出了多种XML数据查询的方法,但是对于复杂的XML数据分布还考虑不周全,使得操作效率很低。本文分别从一维选择估计和多维选择估计两个方面详细阐述了选择估计技术,结合实际中XML的特点,提出了用多维直方图统计XML数据,并取得了简化操作的结果。XML数据中的值信息分布不仅与其他值信息分布相关,还与XML数据中的结构信息相关,而且当XML数据结构比较复杂时,会形成高维元素,导致存储量和错误率大幅上升,因此本文提出了用离散余弦转换方法(DCT)处理XML数据统计,并根据XML数据的高相关性,扩展了DCT到高维,得到了高维DCT方程。使得查询统计的错误率大大减小,并且在时间和空间上都有很大的节省。对一种方法的提出,要考虑详细周全的实验验证,在试验中所有的数据都被生成在(0,l)n正态分布中,合成的数据大小为50k,维数范围从2到10维,从一般分布、Zipf分布和集簇分布,三个数据分布分别来验证(1)存储需求和选择性估计时间;(2)维数和查询大小的影响;(3)数据分布影响。实验结果:1)以前的方法不能支持多维选择性估计,特别是三维以上时候错误率很大。本文提出的方法支持高维选择性估计精度高。2)提出的方法节省时间和空间。3)提出的方法消除了估算的选择的周期性重建统计的消耗,因为它可以反映动态数据更新并且立即统计。4)提出的方法使用了余弦计算,使得问题简单化,计算快速,并且因为离散余弦变换支持相邻的桶之间的篡改,使得能够快速准确的估计计算。
其他文献
船体下料是船体设计制造过程的最初环节,直接影响船体制造的钢材利用率,关系着造船企业的经济效益。本文以某船厂的船体型材零件自动设计为实际应用背景,通过型材下料图形系
随着XML的广泛应用,XML数据量呈指数级增长,如何高效地管理这些数据成为当前急需解决的问题。目前已有一些方法,如利用文件系统或传统的关系数据库系统来存储和管理这些数据
字符识别结果的可信度测定技术是基于模式识别系统的研究,能够比较准确地估计字符分类结果准确性的技术。课题研究的银行票据OCR(opticalCharacter Recognition)系统是一种专
计算机网络教学在高等院校的计算机教学中占有重要地位,如何进一步提高计算机网络课程的教学质量是高校教学改革所面临的问题之一。目前不少高校计算机网络课程的教学都主要
语音识别技术简单地说,就是让计算机能听懂人说话,将人说的话转换成计算机文本的一项技术。这将大大提高人们的效率,有着巨大的理论意义和实用价值。语音识别系统的关键在于如何
P2P(Peer-to-Peer)技术广泛应用于文件共享、流媒体、即时通信等领域,在带来便利的同时也带来许多负面影响,如大量占用网络带宽资源、知识侵权和网络安全等问题。因此,如何解决P
计算机和网络的发展,数字电视的普及,使多媒体的传播变得更加快捷。数字媒体可以非常方便的被存储、复制和更改,并且不会有任何感官质量的影响,这也给盗版行为提供了方便。目前,全
采用单种生物特征建立识别系统进行身份识别存在很多不足,其中最突出的缺点就是这样的识别系统往往只能够满足一部分要求,而在另外一些方面则有缺陷,诸如注册失败等。由于采用了
随着嵌入式系统的广泛应用及发展,越来越多的嵌入式系统开始采用了操作系统。然而,嵌入式操作系统的安全性却始终被忽视,而与此对应的是越来越多的针对嵌入式系统的攻击。因
随着互联网的飞速发展及分布式计算的广泛应用,越来越多的分布应用系统通过目录服务实现网络资源的发布与查找。目前国内的目录服务大都参照X.500系列协议或LDAP协议进行实现