论文部分内容阅读
随着传统互联网的发展和移动互联网的兴起,许多像微博、社交网络这样的内容提供商发展迅速。在互联网上,每天都有海量的文本、图像、视频数据需要处理,尤其对于图像数据,PB级别已经在互联网上出现,而单台服务器的有限处理能力和不易扩展性常常成为整个系统的瓶颈。如何利用现有资源,建立一个高性能的图像分布式处理平台,使其能够提供处理海量图像的各类服务,成为市场的迫切需求。针对该问题,本文将介绍一个图像分布式处理平台,提供面向海量图像数据的整套分布式存储、计算和检索服务。平台主要功能包括基于内容的分布式图像特征提取和查询,具有良好的系统扩展性和容错性。在图像特征提取方面,本文主要研究了基于内容的图像特征提取与匹配,采用SIFT特征来描述一幅图像,并在此基础上利用局部敏感(LSH)哈希进行索引构建,把相似的图像数据放入同一个桶中,进一步加快检索速度;在分布式计算方面,实现了一套基于Hadoop的面向图像的分布式计算方案,高效完成对图像的分布式特征提取和特征匹配;在分布式存储和检索方面,建立基于HBase的可容纳上亿行、上百列的大表,实现海量数据的存储服务,同时设计分布式索引,满足对图像的快速分布式查询。实验表明,针对海量图像数据,图像分布式处理平台具有更高效的图像计算能力,在存储和检索方面也体现出了更高的性能,避免了单机服务器处理速度慢,扩展性不高的缺点。