树模型XML多文档压缩技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:w478435139
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML技术出现后,已经逐步成为各种网络应用中数据交换和存储的事实标准。目前,已经有很多大型数据库完全采用了XML格式来表示和存储数据。应用XML格式管理数据面临的最大困难在于XML数据中存在大量的数据冗余。模式和数据混合存储导致模式信息在数据中存在大量重复,这极大地增加了XML数据存储、交换和处理的代价。对XML文档进行压缩可以在一定程度上解决这个问题。但是,现有的XML压缩方法大都只关注单个文档中的信息冗余,而没有考虑利用文档间的相似性来进行压缩。因此,在压缩XML文档集合时不能获得很好的压缩效果。基于此,本文提出了基于聚类的两种不同的XML多文档压缩方法XMdelta和XMcluster。二者能够充分利用文档间的信息冗余来进行压缩,因此,十分适合于压缩XML多文档集合的应用。XMdelta方法的目的是:提高XML文档集合的压缩比,进而更有效地压缩存档大量XML文档的集合。它首先基于改进的pq-gram近似距离进行Single-link层次聚类。这样既保证了同类文档间的较大相似性,又降低了聚类过程的计算复杂度。然后,它根据不同应用场景的具体要求选取四种具有不同特性的增量式压缩策略之一进行压缩。实验结果表明,在真实和生成的XML多文档数据集上,与通用文本压缩器Gzip和面向存储的XML压缩器XMill相比,XMdelta方法有着更高的压缩比和相当的解压缩时间。XMcluster方法的目的是:在解决XML文档集合数据冗余问题的同时,支持压缩数据集上不解压或部分解压的高效查询操作。它同样先基于改进的pq-gram近似距离进行层次聚类以保证每类文档集中较大的相似性。然后,对于同类多文档的结构信息,XMcluster合并其差异,压缩其公共部分。对于同类多文档的数据信息,XMcluster进行全局的信息统计来进行压缩。实验结果表明,在真实和生成的XML多文档数据集上,XMcluster比同样支持查询的XML压缩器XGrind和不采用压缩技术的XML查询器XQilla具有更好的压缩效果和查询效率。
其他文献
近年来,机器翻译自动评价的研究一直是国内外机器翻译界的研究热点。翻译自动评价不仅能够快速的评价机器翻译的质量,研究者们还可以把翻译评价的结果作为反馈信息来调整其机
软件测试是保证软件质量和正确性的重要手段。随着人们对其重要性的认识越来越深刻,它在整个软件开发周期中所占的比重日益增大。其中,测试数据生成是软件测试的核心与关键,
随着视频监控系统智能化要求的提高,人们不再只满足于在视频中跟踪到特定的目标,而需进一步对目标表观和行为进行分析。视频中提取出的目标轮廓包含丰富的形态学信息,对于物
智能规划(intelligent planning)在实际应用中所起的作用越来越重要,譬如,智能调度、医疗辅助等,在提高人们工作效率方面起了非常重要的作用。然而,智能规划的应用要求人工建立领域
随着英特网的发展,数字摄影的流行,公共媒体共享站点(如Flickr,YouTube等)的出现,网络社区贡献的多媒体资源与日俱增。这些资源信息拥有不可估计的深度和广度,给多媒体研究带
随着Internet和计算机技术的飞速发展,企业对于过程工业监测这一生产环节有着越来越高的要求。为了自动适应每个过程工业企业自身不同的企业结构和对监测不同的需求、为了保
随着计算机和网络技术的快速发展,网络安全也越来越受到人们的重视。日益复杂的网络结构,广泛采用的分布式应用环境,都使得现有的集中式的安全预警系统难以从增长迅速的海量
巡回旅行商问题(TSP)是一个组合优化方面的问题,已经成为测试组合优化新算法的标准问题。从理论上讲,使用穷举法不但可以求解TSP问题,而且还可以求出该问题的最优解。但是对现有的
在越来越激烈的信息战中,恶意事务对数据库的攻击取得成功在一定程度上已不可避免,传统的恢复机制已不能保护数据库的安全,数据库动态恢复技术应运而生。动态恢复技术在保证D
在经济全球化的背景下,工程机械零部件行业得到了快速发展,并逐步形成了多条以龙头企业为核心的产业链。工程机械零部件具有典型的多品种、小批量特性,其采购流程复杂;制造厂