一种基于相似性的分布式重复数据删除方法

来源 :中国新通信 | 被引量 : 0次 | 上传用户:qwaer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在重复数据删除技术对降低存储设备成本等具有重要意义.重复数据删除系统通常会面临数据查询引发的硬盘瓶颈问题,而现有的硬盘瓶颈优化方案在面对海量数据处理请求时又有一定的局限性.针对上述问题,本文提出了一个有效的基于相似性的分布式重复数据删除模型(Similarity-based Distributed Duplication Elimination Model,SD2EM).利用Extreme Binning技术的分布特性,优化Extreme Binning的优先索引表,设计基于Hadoop架构的分布式去重模型,并通过分割相似集、循环去重的方式使基于相似性的去重技术达到更细的粒度.最后,基于大规模真实数据的实验表明,SD2EM模型在数据缩减率、内存占用率、系统吞吐率和运行时间等方面都表现出很好的性能,更适合在海量数据背景下重复数据删除的处理需求.
其他文献
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
在信息化和智能化高度发展的今天,智慧城市也逐渐形成。简述了智慧城市的基本概念。其次概述智慧城市的基本框架,并对国内外的智慧城市发展状况以及建设情况进行分析。文章末尾,通过对各个实例的比较和对我国现阶段智慧城市的建设的研究,找到了我国在智慧城市建设上的不足,并提出个人见解和建设策略。
目前,按照工程机械再制造产品(以下简称再制造产品)的技术特征,再制造产品可分为原型再制造产品、升级型再制造产品和改型再制造产品。原型再制造产品指产品的主要性能接近或
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
988K模型位于车身最前端的铲斗制作非常精细,耐磨板和铲齿都有表现。铲斗通过提升臂、提升臂油缸、Z型连杆、摇臂、转斗液压缸与车架相连,这些部件的造型逼真、线条硬朗,液压
绩效管理作为海事行政管理制度创新和有效管理工具,越来越受到重视。目前海事系统绩效管理方法缺乏明确的考核标准,管理过程针对性不强,评估内容笼统,评估方法和程序不够合理