【摘 要】
:
近年来随着web数据爆炸式的增长,数亿TB的数据分布在世界上无数的服务器上。传统的数据库管理系统对个人数据管理中存在的异构数据显得无能为力,数据空间这种新的数据管理技
论文部分内容阅读
近年来随着web数据爆炸式的增长,数亿TB的数据分布在世界上无数的服务器上。传统的数据库管理系统对个人数据管理中存在的异构数据显得无能为力,数据空间这种新的数据管理技术应运而生。数据空间面对的是异构数据,如何高效地组织和管理这些信息,使企业或个人能够便捷地共享这些数据,并能快速、准确、全面地从中搜索到用户所需要的信息是当前信息科学技术领域面临的一大挑战。本文对数据空间下的索引策略展开研究,对数据空间的研究现状与应用情况进行了综述;介绍了数据空间的基本概念和特点,重点分析了数据空间中三个层次的异构性;概述了数据空间中的查询和索引需求,分析了全文检索引擎工具包Lucene的索引和搜索机制;基于他人已有的研究思想,通过改进,设计了一种新的异构容忍的数据空间索引策略;给出了基于该策略的索引构建流程以及五种形式的异构问题(分别为属性名和联系名同名的异构问题、区分联系实例和相关实例的异构问题、关键字以一定的概率相似的异构问题、属性或者联系以一定的概率相似的异构问题以及实例以一定的概率相似的异构问题)的解决方法,也描述了通过改变索引发生数进行查询结果排序的方法。最后,论文基于Lucene建立了文本文件和异构数据的索引,实现了关键字和结构化的查询,进行了索引发生数的获取和相似异构问题的解决,并且进行了索引的优化和更新,在此基础上评估了新索引的性能,验证了其有效性。本文对数据空间中的索引技术作了有益的探索。
其他文献
随着社会的发展,计算机技术越来越深入人们生活,使得人们对计算机应用软件的需要在提高,对于软件的质量的要求也逐渐增长。但是应用软件的开发效率却没有跟上这一步伐。这一方面
随着商业竞争的加剧,商业智能系统开始在各种商业领域中扮演越来越重要的角色。商业智能是基于数据仓库、ETL、OLAP、数据挖掘和前端数据展现等技术发展起来的技术,其实质是从
随着互联网的不断普及,人们的通信方式也发生了巨大的改变。即时通信,作为一种现代化的通信方式迅速得到了普及,成为了人们在工作和生活中进行交流的一种主要方式。然而,它给人们
近年来,随着进入信息时代,各种数据海量积累起来,远远超出了人力的处理范围,数据迅速膨胀,导致经常出现“数据富有但是知识贫乏”的现象。在这种情况下,数据挖掘技术诞生了,
由于无线传感器网络中节点能力的有限性和网络环境的开放性,实际应用中存在着许多安全问题。数字水印技术作为信息隐藏技术的一个重要分支,可以有效的保证信息的完整性与真实
随着科技与社会的进步,工作流技术在现代企业的管理中发挥了越来越大的作用,企业之间的合作日趋频繁,规模越来越大,这些企业在地理上广域分布且拥有各自独立业务系统,相互之间缺乏
现如今互联网快速的发展,数据与信息迅速的增加,各领域的资源可能无法满足自身需求。为了达到资源的共享,不同安全域之间会采用互操作的方法,从而获取对方领域的权限与资源。虽然
近年来,无线网络通信技术得到了快速的发展,便携式、微型化计算设备迅速普及,基于无线网络的应用和服务在互联网服务中所占的比例逐年增大。越来越多的移动通信用户开始使用具有
随着互联网技术的迅速发展,网格技术也逐渐发展壮大,它是一种针对复杂科学计算领域的分布式计算方法,它仍处在不断发展和变化之中。网格能够集成或共享地理上分布的各种资源,使之
在信息时代人们需要对大量的数据进行处理,去寻找其规律并对其进行运用。分类是数据处理时经常要做的工作,因此分类问题成为机器学习域的一个重要研究内容。支持向量机方法通