基于特征码的大规模XML文档去重算法研究

来源 :第二十三届中国数据库学术会议(NDBC2006) | 被引量 : 0次 | 上传用户:treef620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术的飞速发展,人类交换信息的方式正发生着深刻的变化.极大的改变了人们发布,获取,使用信息的方式.人们从信息缺乏进入了信息极大丰富的年代.但另一方面,Internet所固有的海量数据的分布性,异构性,动态性又对互联网环境下的数据交换和信息共享提出了新的挑战.人们面临着从海量的数据中发现自己所需的有用信息的困境,往往有"大海捞针"的感觉.而XML(可扩展标记语言)的出现很可能改变这一切.随着信息时代的到来,尤其是互联网技术的高速发展,网站数目巨增,出现了大量的文档,而如果要想将这些数据资源成为可持续开发的Web信息资源.将其用XML语言表达是最好的方式.这就难以避免的有大量的内容重复的XML文档的出现.因此,如何在海量的XML文档之中合并表达内容重复的文档,将是本文的研究重点。
其他文献
本文系统研究了由Ti,Ai,Mn,Co等元系取代的Laves相zr-V-Ni系列合金的显微组织、晶体结构和电化学性能。常规的多晶铸态合金是由cl5-Laves相、C14-Laves相及非Laves 相(Zr NI10、Zrg NiZr(Ni,Mn)Sno.35)组成,电极材料的最高放电容量为342mAh/g(以60mA/g的充放电流)510次循环后容量衰减14.3℅。快淬的非晶态合金电机的电化学性
在双时态数据模型中,随时间变化的事实是用两个时间维--有效时间维和事务时间维--来描述.在关系数据库中,通常用4个时间字段表示数据的时态性,这种方法使得数据和时间分离.为了描述时变数据的物理意义,定义了时态数据类型,并且定义了时态数据运算和时态关系运算,同时建立了时态索引机制.以时态数据类型为系统的基本数据类型,扩展关系数据库系统为时态关系数据库系统.
GML是由OGC推出的一种基于XML数据格式的地理标记语言,是空间数据编码、传输、存储和发布的一种国际标准,适用于Internet环境中的地理数据共享、交换和集成.随着GML的广泛应用,如何有效地管理GML数据是亟待解决的问题.提出了一种基于模型映射的GML文档存储和查询方法,该方法主要针对无模式的GML文档,也可用于有模式GML文档的存储.通过对文档树结点的分析和处理,建立文档到对象关系数据库模
信息安全已经成为当前研究的热点课题,作为信息系统核心的数据库的安全尤其成为信息安全的重中之重.目前,国内大部分企事业单位包括国家的一些关键部门大多数都使用国外进口的数据库产品,如ORCALE、DB2、SYSBASE等.但是国外限制了B1以上级别的安全数据库对中国的出口,在这种情况上,加强国产数据库的开发并加强数据库的安全级别就显得非常重要.国产LogicSQL安全数据库的研发就在这个背景下得到各级
与MPEG4标准不同,我们使用的MPEG4-SP(simple profile)是从H.263、MPEG1、MPEG2继承而来的编码标准,并没有场景对象信息.对于MPEG4-SP矩形编码来说它主要还是利用传统的预测编码、运动估值、运动补偿、DCT,IDCT,变换、量化、反量化的混和编码方式.在优化的方案中,本文只取了比较简单的零系数、三系数与全DCT相结合的方法来进行优化,在实际中还有许多方法可以
在企业信息系统中隐藏着大量结构化、半结构化及非结构化存储的文本信息还没得到有效利用.结构化存储的文本信息隐藏于关系数据库内部,而传统关系数据库管理平台文本信息检索功能有限.自然语言中存在的一词多义和多词同义现象给文本检索增加了难度,由此提出了查询扩展技术提高检索结果文档数,及文档的相关度.本文设计了一个服务于关系数据库平台的信息检索系统,具备通用性、灵活性和可扩展性,解决信息系统内部大量结构化文本
时态信息处理已成为高级数据库技术研究的重要领域,自20世纪80年代以来,在基础理论、时态数据模型、时态数据语义、数据库语言和应用技术方面取得了丰硕的成果.在基础理论研究方面,加州大学洛杉矶分校的J.Ben Zvi在1979~1982年期间对时态信息处理做了系统的研究,提出了有效时间、事务时间的概念,引入了时态数据库的模型.纽约大学的J.Clifford在他的博士论文中,研究了在关系、元组、字段值上
本文首先讨论了利用9I模型进行空间拓扑关系描述时存在的不足之处,在此基础上给出了V9I模型的定义及特点并分析了基于V9I模型的空间拓扑关系,提出了一种基于V9I模型的空间拓扑规则发现机制,该机制通过分析空间对象及其邻对象间的拓扑关系模式的离散性,来发现空间对象对间的拓扑描述规则,并利用该规则来判断空间数据是否具有拓扑不一致性,进而进行拓扑一致性维护.这种基于V9I模型的拓扑描述规则的优点在于,抓住