论文部分内容阅读
20世纪90年代后,计算机技术的飞速发展给人们生活带来了极大的改变。社会信息化速度加快,计算机被广泛应用在各行各业,它已进入千家万户成为了人们生活的必需品。计算机普及的同时也带来了数据的爆炸式增长,数据格式也不仅限于普通的文本,还包括图片,视频等多媒体数据。这些数据中,大多是没有意义的垃圾数据,那么如何从海量的数据中检索出需要的数据呢?这就推动了分布式计算与全文检索技术的发展。当前最流行的分布式计算框架就是Hadoop,全文检索技术面向大型非结构化数据。例如:文本、图片、视频等。由于实习单位的项目需求,需要实现一个以图搜图功能,因此本文研究基于Hadoop的图像检索。首先,对分布式计算的思想和Hadoop计算框架做了深入研究,然后介绍了全文检索的基本概念与核心流程。此外还介绍了一个全文检索工具包Lucene,为下文的研究奠定基础。然后,对Hadoop MapReduce并行计算框架的内部工作流程进行了深入地分析。通过作业的状态转化,与任务的时序流程,分析了运行过程中可能存在需要优化的地方,并介绍了几种现有的调度算法的优化思路,在此基础上,本文提出了一种新的优化方案。通过合并Job setup/cleanup任务来减少心跳周期,从而缩短作业的运行时间,提高效率。最后,实现了一个图像检索系统。本文针对传统的基于图像的检索框架,提出了一种基于web的图像检索接口框架,利用优化Job setup/cleanup任务的MapReduce模型对所有的图片分布式的构建索引。由于检索的是纽扣图片,对检索精度要求较高,所以将Lire(Lucene image retrieval)提供的提取特征值算法中的Tamura(纹理)与CEDD(颜色)结合起来,定为共同影响图像相似度的因子,提出一种综合的相似度计算公式,并推广出一种综合k种相似度的计算公式。然后介绍了核心步骤,实现该系统。实验证明,检索达到理想效果。