【摘 要】
:
近年来,对于概率XML数据管理,已经有不少理论研究。但是,对twig查询处理,仍然缺少着比较高效的算法。因此,本文中针对概率XML的twig查询处理算法进行研究。首先,本文提出一种
论文部分内容阅读
近年来,对于概率XML数据管理,已经有不少理论研究。但是,对twig查询处理,仍然缺少着比较高效的算法。因此,本文中针对概率XML的twig查询处理算法进行研究。首先,本文提出一种新的针对概率XML文档的编码策略,pDewey编码策略,来对文档中的普通节点和分布节点的标签和概率进行编码。从而根据编码可以高效地计算:任意一个节点的所有祖先节点的编码、标签和概率;任意两个节点的公共祖先节点的编码、标签和概率。这些性质对twig模式匹配与匹配结果的概率计算都是至关重要的。接着,本文提出一种新的针对概率XML文档的分流策略,Tag+Probability分流策略。它不仅根据节点的标签,而且根据节点的概率,将编码后的节点集合划分成多个节点流,使得同一个节点流中的节点,具有相同的标签和相近的概率。从而能在查询处理时,对输入数据进行剪枝,从而节省I/O代价,显著地提高查询处理的效率。最后,基于提出的编码策略和分流策略,本文提出一种新的概率XML文档twig查询处理算法,pTJFastTP算法。作为一种holistic twig join算法,它能够高效地对概率XML文档进行twig模式匹配。在连接阶段,算法利用pDewey编码,对匹配结果的概率计算,并且,一边连接一边根据概率阈值对中间结果进行剪枝,从而进一步提高效率。本文进行详尽的实验,评价pTJFastTP算法的性能。实验中,采用各种不同结构的数据和twig查询,将pTJFastTP与目前效率最高的概率XML的twig查询处理算法,ProTwig算法,进行比较。实验结果均表明,在I/O和CPU代价上,pTJFastTP算法显著地优于ProTwig算法,并且,pTJFastTP算法具有更好的数据可伸缩性和查询可伸缩性。
其他文献
本课题首先介绍了RBAC(Role Base Access Control)模型并对其进行扩展,根据实际需要建立时间敏感的角色存取控制的TRBAC模型和资源敏感的角色存取控制的RRBAC模型。 然后分
随着社会信息化的发展,条码技术在物流、证件管理、防伪和电子商务等领域中得到了广泛的应用,大大提高了生产工作效率。手机和二维条码技术的结合形成了一个新的热点领域——
随着社会经济和信息技术的飞速发展,现代社会正在向知识经济和知识社会转型。随着人们对知识需求的日益强烈,知识服务这一概念被提出,并得到了快速的发展。随着软件开发技术
该文提出将一个基于实例的机器翻译系统的具体实现分为五个步骤的观点,即:资源的获取、资源的管理、实例的获取、实例句对的词对齐、句子的合成. 基于实例的机器翻译的基础是
该文研究的主要内容Checkpoint的设置是BIST软件可测性设计中的一个重要模块.Checkpoint的设置类似于硬件BIST技术中预埋测试电路位置的选择.在软件中设置Checkpoint可增强可
该文首先介绍了移动IP技术的产生、基本概念和功能实体,然后详细分析了移动IP包传送机制的细节.该文分析了实现隧道技术的几种不同的方法,详细描述了各种方法的技术细节.在某
该文首先简要介绍了VPN的概念和特性,并对VPN的具体实现技术进行了探讨.然后根据VPN具有很强的动态性的特点,详细阐述了保证QoS的动态VPN的设计方法.随后针对两种不同的VPN拓
本文首先介绍了飞行器外形设计遗传优化算法的机制,包括传统方法的该算法的实现。然后介绍了网格的基本概念,包括网格计算的三要素,当前正在进行的网格项目等。同时具体介绍了在
该文以移动自组织网络路由选择机制为研究目标,首先介绍移动自组织网络的起源,然后讨论了Ad hoc网络的特点、体系结构及应用和目前研究所存在的问题.并对目前已经提出的Ad ho
数码城市的信息组织和信息检索是当前数码城市的一个研究重点,它在很大程度上决定了用户(包括政府、企业和普通用户)对数码城市项目是否认可。本文分析了现有数码城市的系统结