论文部分内容阅读
随着信息技术的快速发展,数据量呈现爆炸性的增长,存储系统中的文件种类各种各样,文件数目不断增多,如何应对企业存储峰值和机密数据的保存成为当前急需解决的一个问题。混合云存储是公有云和私有云的混合,它既解决了企业存储容量不足的问题,又为私密数据和常用数据的保存提供了解决方案。混合云存储网关是混合云存储的关键部分,它作为公有云和私有云数据传输和交流的纽带,它的性能直接影响到混合云存储的性能。因此,对混合云存储的网关转存算法进行研究和优化具有理论和现实意义。本文采取一种新的思路对混合云存储网关的转存算法进行优化。针对混合云存储文件的属性特征和用户间的网络关系,分别设计了基于分类决策树的相似TBF-K算法和基于用户网络关系的PRE-SN算法,从而提供了一种对文件访问行为的预测,为云存储网关的转存提供缓存依据。基于分类决策树的相似TBF-K算法主要是利用文件的元数据信息来建立文件存储地点预测模型,从而为未分类文件的转存提供决策依据。它首先利用ID3算法得出文件各个属性的信息增益,建立最优文件属性分类决策树,决策树的叶子节点是具有相似属性的文件集合。然后计算未分类文件与文件集合中文件的相似性,并取相似度最高的K个文件的类别属相为未分类文件的类别属性。基于用户网络关系的PRE-SN算法将预测热点文件的重点放在混合云存储的用户网络关系上。定义用户的相对网络中心度来表示用户网络关系的多少,在转储的时候,用户的网络中心度越高,则尽可能多地将该用户的文件转存在本地。相反的,关系度不高的用户,则将其大部分甚至全部文件转移至公有云存储中。本课题搭建了测试环境,对转存算法的命中率和时间性能进行了完整的测试。结果表明,基于决策树的相似K近邻转储算法和基于用户网络关系的转储算法,很好地平衡了存储容量和存储效率的关系,使混合云存储系统的读写性能得到了大幅度提升。因此本文设计的转存算法,能有效提高混合云存储的处理性能和用户使用体验。