相似性的块级重复数据删除算法的研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:goove8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技以追风逐电的速度渗透到各行各业,使数据量出现爆炸式增长,为减少存储成本与网络开销,重复数据删除技术被越来越广泛地应用于云存储、备份与归档系统中。然而在数据块级重复数据删除算法中,传统分块算法的分块效果均较差。固定分块(FSP)不能很好的满足数据多变性,可变长度分块(CDC)的参数设定掺杂了过多人为干预,导致基于经典分块算法的重复数据删除技术性能表现不稳定。另外,随着数据量级的增加,越来越多的指纹信息不能快速被检测对比,机械式的I/O操作严重增加了算法时间,性能难以保证。针对可变长度分块(CDC)的分块大小难以控制,指纹计算对比开销大,预先设置参数等问题,提出Winnowing指纹串匹配的分块算法(CAWM)。首先在数据分块前引入分块大小预测模型,能够较准确地根据应用场景计算出合适的分块大小;然后在计算指纹时采用ASCII/Unicode编码方式作为数据块指纹;最后在确定分块边界时,提出指纹串匹配的分块算法,无须预先设置参数,使得指纹计算和对比开销减少。通过将FSP、CDC、CAWM三种分块算法应用于重删实验,来验证CAWM分块效果,相比于FSP和CDC分块算法,CAWM在数据的重删率上提升了10%左右,在指纹计算和对比开销方面减少了18%左右。因此,CAWM的分块大小和边界更加符合数据特性,减少了参数设置对重复数据删除算法性能的影响,在处理不同类型的数据时,可以有效地消除更多的重复数据。针对重复数据删除算法指纹对比I/O瓶颈问题,提出了一种基于相似聚类的二级索引重复数据删除算法。首先计算所有数据块的Simhash值,基于Simhash值之间的海明距离,提出了一种自适应的相似聚类算法,所有聚类中心信息形成一级索引存放在内存中。然后计算每个类中数据块的MD5值,将其信息形成二级索引存放在聚类中心。当需要进行重复数据块检测时,计算待检测数据块Simhash值到一级索引中所有聚类中心Simhash值的海明距离,并将海明距离最小的类的二级索引调入内存中进行MD5指纹对比。实验结果表明,与传统重复数据删除算法TDA、Bloom filter及shingle技术相比,算法没有误判率,在重删率提升23%的同时,每次检测只产生一次I/O操作,具有更高效的性能。
其他文献
序列比对是生物信息学中一个重要和活跃的研究领域,是生物信息学研究的基础内容。DNA是生物体中一种遗传物质,它作为一种媒介,将遗传信息从上一代遗传到下一代。所有的生物(
近几年,在未来互联网的研究中,全新网络架构的设计引起了大家的广泛关注。该领域许多的研究项目在美国国家科学基金的支持下先后成立。Mobilityfirst就是其中专门针对移动网
Hadoop中数据及其副本如何更好的存放和管理是HDFS中亟待解决的问题。在实际中,Hadoop同构下默认的数据放置策略对异构环境下的设想存在一定的局限性,在异构环境下使用可能会
由于图像采集器的差异和人为因素的影响,使图像在获取和传播的过程中会受到噪声污染,而乘性噪声是在用高科技手段获取图像时普遍存在的一种噪声。乘性噪声降低了图像的画面质
数字媒体产业被认为是数字技术和文化娱乐产业相融合而产生的内容创新型产业[11,进入21世纪以来发展尤其迅速,已经在高性能计算领域逐步成为最活跃的应用之一,拥有大量用户,
高分辨率太阳磁场观测是太阳物理学家不懈追求的目标,采用现代图像处理技术与方法处理后期数据可以更充分发挥现有望远镜的工作潜力。对于地基望远镜而言,望远镜的分辨率由地
随着环境恶化、生活压力增大、饮食结构失调等原因使得脑卒中的发病率逐年升高,其中有70%的患者会引起偏瘫症状。目前,偏瘫患者康复治疗以医师一对一辅助运动为主,费用昂贵,
随着传感技术、存储技术以及工业过程复杂度的发展,工业数据信息变得越来越丰富。因此,基于数据驱动技术的工业过程监控方法越来越受欢迎。其中,多变量统计过程监控(MSPM)已
从上个世纪至今,计算机的各个领域都取得了长足的进步,软件作为存储和管理信息的工具,已广泛深入到现实社会的各个领域,成为整个社会的支柱产业之一,正是因为软件的重要性日
随着机器人技术的发展,人工肌肉逐渐成为机器人执行器研究的热点问题。相对于传统的机器人执行器,人工肌肉执行器具有高能量密度、高自由度、无噪音等优点,但由于人工肌肉材