面向XML文档的关键字查询的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:romotic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML数据具有自描述性、可扩展性,既有内容也有结构信息,XML文档常见于Internet上存在的网页、商业文本、数字图书馆等,XML文档数量正呈指数级增长。如何有效地解决异构的XML文档集的检索已变得非常重要。XML关键字检索是XML数据检索的研究热点之一。XML关键字检索以元素为粒度进行,只需返回包含关键字的文档片段,提高了检索的速度。与XML文档查询语言XQuery相比,XML的关键字检索技术的主要优势就是用户不需要学习复杂的查询语言,也不需要对XML文档底层的数据结构有深入的了解,用户仅仅需要输入与他感兴趣内容相关的关键字就可完成查询。本文主要研究内容:考察已有的关键字查询方法研究现状的同时,借鉴XSeek中将关键字分类的思想,提出了一种新的基于关键字分类的查询方法。该方法将关键字分为谓词关键字和结果关键字,谓词关键字只用于限定查询范围,不出现在最终的结果集中,只有结果关键字用于返回结果集,从而有效地减小了结果集。定义了简单的查询语法,提出了新的关键字查询流程,使分类的关键字表达式在查询过程中发挥出“类结构化查询”的作用,从而有效地提高查询精度。定义了“相似节点对”(SNP)的概念,提出了SNP发现算法和有效相似节点对(MSNP)判定方法,为寻找关键字匹配节点引入了新的思路。构建名称节点、值节点和主Dewey码节点的索引结构,以加快节点和其Dewey码之间的相互查找。实验结果与分析表明,基于关键字分类的查询方法比传统关键字查询方法能够更好地表达用户的查询意图。
其他文献
事件发掘就是从海量的、实时的、嘈杂的文本中发掘出有意义的事件,并将其中的事件要素概括抽取出来。事件发掘与其他自然语言处理领域的研究,如信息挖掘、主题检测、事件抽取
随着数据库技术的迅速发展,以及数据库管理系统的广泛应用,各个应用领域积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,用户希望能够对其进行更高层次的分析,以便
作为一种编程模型,MapReduce已经成为处理大规模数据处理问题的一个重要手段。目前,MapReduce已被广泛地应用于Web搜索,机器学习,电子商务等领域。Hadoop,作为MapReduce的一
TTCN-3是一种全新的、灵活的、强有力的测试描述语言,可用于描述在多种通信端口上的各种响应系统的测试,它使得在软件开发领域中使用一个标准化的抽象测试描述语言成为可能。
随着互联网的飞速发展,互联网上的信息飞速增长,用户要从网上查阅到感兴趣的内容变得越来越艰难,传统的搜索引擎技术已经难以满足用户的需要。在这种背景下,个性化推荐系统应
UDDI(Universal Description,Discovery and Integration)统一描述、发现和集成,是一套基于Web的、分布式的、为Web服务提供信息注册中心实现的标准规范,同时也包含一组企业
数据库知识发现(KDD)是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,序列模式发现是其中的一个重要研究方向。当前序列模式发现算法需要多次扫描数据库,挖掘所
随着互联网的广泛普及和网络服务的多元化,获取各类信息的方式已经逐渐从文字和图片过渡到音频和视频。VoIP(Voice over IP)是一项利用互联网进行语音通信的热门业务,通过对
随着集成电路设计和工艺技术的发展,嵌入式系统因为具有高性能、低功耗、便携式的优点,已经在移动通信、机顶盒、智能卡等信息终端中得到了广泛的应用。而作为嵌入式系统核心
随着工作流技术的快速发展,特别是对于大型企业,他们所持有的模型库通常含有海量的多样的模型。当今针对大规模工作流模型库的应用已经成为一个研究热点。其研究成果广泛地应