基于聚类的重复数据去冗算法的研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:hopkings
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的损坏和丢失会带来无法弥补的损失,数据备份系统可以将损失降到最低程度.随着收集的数据量的迅速增加,备份系统需要备份与恢复的数据也迅速增加,然而备份文件之间的相似度超过60%,全部存储在硬盘上十分浪费存储空间,故提出了一种基于K-medoids聚类的DELTA压缩方法,用来去除备份数据中的重复数据.该方法首先对文件进行切割分块,通过对文件块进行两两DELTA压缩,得出各自压缩文件的大小,作为两个文件块之间的相似度.通过得到的相似度进行K-medoids聚类,作为DELTA压缩前的预处理步骤.然后根据K-
其他文献
整体主义环境伦理产生和发展有着深厚的哲学理论渊源和丰富的文化科学背景。西方哲学中的整体论为其提供了哲学方法论基础,东方传统文化蕴涵的生态整体智慧是其重要文化资源,而
鲁迅及其精神,属于人类文化宝库中那种具有经典价值和原创意义的研究对象.对其不断的探究,将伴随人类文明进步的过程而不会有一个"终结",其目的也不在对这一研究对象内涵的"
随着中国加入世贸组织,全球化已经不再只是一个理论的命题,它仿佛已经变成或即将成为一种活生生的现实.比如,当我们迈进一家大型超市,或步入一家肯德基连锁店,或走进一座咖啡