基于聚簇的XML文档近似连接方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:sdrb_123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML文档近似连接操作是在两个XML文档集合中发现近似的XML文档,其在基于XML数据的信息集成、XML数据清洗等系统中有着广泛的应用.然而,目前XML文档近似连接操作的一个显著问题在于:当文档之间存在较大差异时,存在大量的重复计算,降低了处理效率.对于这个问题,提出了基于聚类的XML文档近似连接方法,基本思想是为每个XML文档建立一个索引,如果两个数据集中若干文档的索引较相似,可以把它们组成一簇,然后在每一簇中执行近似连接.而不在任何簇中的文档,则无需对其进行任何计算.实验结果表明,提出的方法在保证正确率的前提下具有高效性.
其他文献
普光气田经过多年的勘探开发,遇到了一系列的难题,目前部分问题已经得到一定程度的解决,但还有很多难题需要解决。本文首先总结了普光气田钻井技术所遇到的难题;然后对普光气
本文对气象条件与察尔汗盐田卤水蒸发的强度关系进行了分析,初步掌握盐田蒸发受气象条件影响的规律.得出:卤水温度的高低决定卤水蒸发量的大小,而卤水温度又取决于气温高低、
XQuery/Update中定义了一种特殊的查询--Transform查询.Transform查询类似于关系数据库中的假设查询,可以表示成假设查询的一般形式:"Q when{U}",即查询Q的查询结果是假设数
中国企业年金目前仍处在发展的幼稚期,不具有为证券市场持续提供资金的能力。无论是从利益主体还是从制度特征上看,中国企业年金与美国401(K)计划都有本质的不同,所以,现阶段
面对农民工的返乡潮,可持续发展的压力,后工业社会的如期而至,城市如何实现华丽转身,从容器变为磁体,成为上海及许多城市发展的课题.文章从加拿大蒙特利尔市和意大利布雷西亚
连续数据保护(continuous data protection,CDP)是一种数据的连续时间点的保护技术,它能在故障瞬间完成任何时间点的故障恢复,起到业务的快速连续地运行的作用.与传统的数据
本文阐述了技术标准的著作权及其归属,监督和管理政策,依据我国著作权法、标准法及相关政策,从科技出版的角度,指出出版社依法对技术标准类图书享有专有著作权,同时细致地阐
本文首先引入我国原料奶拟需求量的概念;然后建立了我国原料奶拟需求量的预测模型,预测得到2011-2013年的我国原料奶拟需求量分别为4746.6万t、4977.6万t和5212万t;最后基于灰
Double-skin facades (DSF) are a technique developed for colder climates, so few people think about whether or not it can also be used for hot-summer and cold-wi
  本文对世界钴资源的储量与分布、主要生产国的产量、钴金属的应用及供需平衡等作了较为详细的介绍,同时对中国钴资源的供需情况及面临的问题进行了分析。指出随着新建项目