基于序列的不确定XML索引和查询处理技术研究

来源 :内蒙古科技大学 | 被引量 : 1次 | 上传用户：cq823285326

【摘要】

：

1998年2月万维网联盟发布了一种名为XML(可扩展标记语言)的数据标准。由于它是标准通用标记语言SGML的子集，又是由W3C组织发布的，因此XML正逐渐成为信息世界数据交换的标准。在

【作者】

：

王鹏

【机构】

：

内蒙古科技大学

【出处】

：

内蒙古科技大学

【发表日期】

：

2014年01期

【关键词】

：

不确定XML 序列小枝模式概率阈值

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

1998年2月万维网联盟发布了一种名为XML(可扩展标记语言)的数据标准。由于它是标准通用标记语言SGML的子集，又是由W3C组织发布的，因此XML正逐渐成为信息世界数据交换的标准。在Web应用中的数据存储、应用程序的配置文件、应用程序之间数据共享等凡是涉及数据存储、数据交换的领域都有XML的身影。面对多变的客观世界，数据的不确定性在加工数据的同时也要被考虑到。由于XML技术的发展以及XML自身所具有的各种优点，使用XML来存储不确定性数据已经成为当前趋势。利用XML文档来保存数据及数据的概率，这种形式的XML叫做不确定XML，针对不确定XML的查询已经成为当前研究热点。二元结构连接和整体匹配是当前小枝模式匹配领域中常使用的方法。但二元结构连接过程中的部分结果是没有意义的，这样无意义的结果对查询速度有着很大的约束。基于整体匹配的方法由于查询过程过于集中，不方便进行概率阈值过滤，无法高效地利用概率阈值过滤来提高查询效率。由于当前不确定XML小枝模式查询处理方法存在着缺陷，本文将基于序列匹配的方法应用到不确定XML查询。通过改进LCS-TRIM算法提出了基于序列的不确定XML小枝模式匹配算法PrTRIM以及H-PrTRIM。不确定XML文档与普通XML文档相比，具有额外概率信息，因此在查询同时还需要正确地处理这些概率信息。本文中PSI索引由于存储了结构信息，因此可以对互斥分布节点来进行识别。PSI索引中的内容信息可以进行实例树概率的计算，这样XML文档中存储数据的概率就可以被准确处理。PSI索引在查询中也发挥着重要的作用。不确定XML的查询结果没有必要全部保留，这是因为低概率结果对于一些实际应用没有意义。这样就可以考虑在查询中设置一个阈值来去掉部分不符合要求的结果。概率阈值是查询时给出的一个概率值，意义是要求查询结果的概率值都大于等于给出的概率阈值。本文在查询同时加入三次概率阈值过滤策略，可以确保查询结果符合概率阈值，同时又能提高查询效率。实验主要通过PrTRIM算法与H-PrTRIM算法对比来进行，包括概率阈值对查询效率的作用，算法效率比较以及文档容量对查询效率的作用三个方面，在最后对实验结果进行了相应的分析。实验结果表明针对小文档和结构简单的查询语句H-PrTRIM算法效率接近PrTRIM算法，但仍然高于PrTRIM算法。针对大文档和结构复杂的查询语句，H-PrTRIM算法效率明显高于PrTRIM算法。由此可见，针对查询大文档和结构复杂的查询语句H-PrTRIM算法更具有优势。

其他文献

混合型蝙蝠搜索优化算法及其应用研究

蝙蝠(Bat Algorithm, BA)搜索算法受蝙蝠回声定位行为的启发,由剑桥大学YANG Xin-she教授于2010年提出的一种新型搜索优化算法,蝙蝠算法目前应用于分类类别、模式识别、分布

学位

蝙蝠算法融合策略极限学习机分类应用收敛性分析

基于全局和局部相似性度量的协同过滤推荐研究

本文的研究内容来源于国家自然科学基金面上项目“基于异构服务网络分析的Web服务推荐研究”。当前，随着信息技术与电子商务的发展，推荐系统逐渐成为电子商务技术的研究热点，其

学位

推荐系统协同过滤相似性度量全局局部

基于主题模型的微博话题发现与话题摘要

随着信息时代的到来，网络上的信息资讯呈现爆发式增长。其中，微博以其交互性、实时性、原创性等特点迅速成为信息资讯传播的重要平台。在社会热点事件发生和传播的过程中，微博等

学位

主题模型微博话题发现技术半结构化信息

嵌入式图像并行处理系统的研究与应用

当前处理图像信息常基于PC机完成,但PC机体积庞大,不方便携带,且使用过程中,配套的电力设施、环境及其他资源要求较多,因此,在野外实时处理图像数据具有一定的难度。因此,本

学位

并行处理平台DSPFPGARapidIO总线

时延受限组播路由算法的研究

随着互联网技术的迅速发展，视频点播、远程会议、在线教育和网络游戏等实时多媒体服务运用的越来越广泛，人们对网络应用的服务质量（Quality ofServices，缩写QoS）要求也随之增高。

学位

时延受限组播路由算法静态部分动态部分链路选择优化函数关键次数

信号检测理论在无线传感器网络目标探测中的应用研究

无线传感器网络(WSN,Wireless Sensor Networks)的提出,是基于环境监测和目标追踪等一系列的实际应用需求。作为一种新兴的对环境和目标进行感知与探测的技术手段,如何提高WS

学位

信号检测能量检测器协方差检测器无线传感器网络

基于音频辅助信息的目标抗遮挡跟踪方法研究

目标跟踪是人机交互领域中的一个重要课题,但在实际跟踪中,目标容易受到遮挡等问题的影响,本文在分析总结已有工作的基础上,以提高遮挡等复杂环境下跟踪系统的性能为主要目标

学位

目标跟踪抗遮挡粒子滤波到达时间差颜色直方图边缘梯度方向直方图多特征融合

基于关联图增强的网络图像检索

随着互联网的迅猛发展，网络多媒体数据与日俱增，其中网络图像数据的增长尤为明显，仅仅在Facebook论坛上，每天就有超过3亿张图像被上传和分享。在淘宝网上，每天的在线商品数量大约

学位

网络图像检索视觉单词关联图词袋模型

驾驶行为识别系统及应用

随着汽车行业的迅速发展，交通事故也在持续增长。为了解决这一问题，许多研究开始关注于驾驶行为的识别，以求理解事故发生的内在机制。同时，驾驶行为的研究，还能够为日益丰富的车载

学位

识别系统数据采集风险分析HMM模型模拟器驾驶行为

基于序列的不确定XML索引和查询处理技术研究

其他学术论文