XML上基于SLCA的关键字查询研究

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:iloveshe1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,XML格式逐渐成为数据展现和传输的事实标准。XML上信息获取技术研究也越发重要。自XML语言诞生以来,各种各样的XML结构化查询语言被开发出来,如XPath、XQuery等。但结构化查询语言对用户要求较高,不仅要求掌握一门复杂的查询语言,还要求了解目标XML文件的结构知识。而关键字查询的方式,简单易用,受到用户的喜欢。XML上关键字查询已成为研究的热点。本文工作主要包括:1.通过引入两个有效的剪枝策略和三个定义明确的匹配节点组合概念提出了一个高效的基于SLCA语义的关键字查询算法MMPS;2提出了关键字查询的返回结果快速分类的算法。为了返回有意义的关键字查询返回结果,SLCA(最小最低公共祖先)的概念被引入到数据管理领域,即返回一棵同时满足两个条件的子树(a)包含所有关键字,(b)这棵树上不包含满足条件b的子树。然而现有的基于SLCA语义的算法在计算SLCA过程中通常会引入大量中间结果的计算,即使最后的返回结果集很小,剪枝策略较简单,效率不高。针对这些不足,本文深入研究SLCA候选和XML上的节点间的关系,提出了两个有效的剪枝策略和三个匹配节点组合概念,基于这些策略和概念提出了一个高效的SLCA关键字查询算法MMPS。在本文实验部分重新实现了当前较优的IMS算法与MMPS算法,并通过在真实数据集和人工数据集上的对比试验,验证了MMPS算法的高效性。另一方面,基于关键字查询返回结果较多,返回的结果有些差别较大的事实,本文提出了对返回结果的快速分类算法,以提高用户体验。本文首先提出了一种利用tag名称做分类的naive方法,该方法利用外存中的索引得到节点对应的tag信息,而后利用红黑树根据tag信息做分类。这种方法引用了外存索引,IO开销较大,用户体验较差。针对这个不足,本文又提出了一个改进算法,通过引入扩展dewey编码避免了外存索引,减少IO开销。通过实验发现,改进算法的性能远远优于naive算法,提高了用户体验。
其他文献
中国加入WTO后,世界经济全球化使我国电信企业面临着前所未有的挑战。能否快速而科学的决策密切关系着电信企业的成败。目前各电信运营商普遍采用依靠手工报表分析数据的决策
在当今计算机领域中,网络安全是最热门的课题之一,而网络主动防御则是网络安全重要的一环。网络主动防御系统是一种智能化的网络保护手段,它可以让网络管理员减轻负担,而提高网络
电子商务改变了企业与客户的沟通方式,从而使传统的企业商务模式发生了深刻的改变.近年来,随着信息技术的飞速发展,移动通讯与互联网融合发展的趋势日趋明显,作为电子商务领
Petri网是描述和分析并行与分布系统的有力工具,为扩展Petri网的建模与分析能力,使之能够处理时间相关的问题,人们将时间约束引入Petri网模型中,形成带时间约束的Petri网.Mer
近几年来,由于移动终端设备的蓬勃发展,各式各样的硬件设备,软件平台都被开发出来.但是程序员如果想要写出能够跨越这么多平台的应用来,不是一件容易的事.因此,本身具有跨平
工业界,尤其是棉纺织行业,对计算机图像识别及检测处理技术有着十分迫切的需要。目前,棉纺织行业中原棉异纤检测环节急需一种代替人工的自动异纤在线检测系统的出现。随着微电子
校园网的监测和管理成为现在高校的一项重要课题。蓬勃发展的校园网,使现在高校师生的学习、生活和工作变得越来越离不开网络。但网络的极度膨胀,使网络的运行效率、安全问题日
本课题主要研究的是基于角色的访问控制技术如何在网络安全中得到实现。传统的网络安全技术手段,不能实现网络区域的有效隔离和用户访问的有效控制。采用基于角色的网络访问控
音视频传输是网络多媒体的一个重要内容,涉及到多媒体和网络通信方面的内容,同时必须满足一定的服务质量。为此,研究音视频传输必须考察适合通信的多媒体技术和合适的通信技
随着互联网的快速发展,数据量爆炸性的增加,人们对搜索的精准性和智能化的需求日益增长,知识图谱的兴起拉开了智能信息检索从字符串匹配跃迁至智能理解的序幕,可以实现深度挖