基于Hadoop全文检索的研究与应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chinadyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪90年代后,计算机技术的飞速发展给人们生活带来了极大的改变。社会信息化速度加快,计算机被广泛应用在各行各业,它已进入千家万户成为了人们生活的必需品。计算机普及的同时也带来了数据的爆炸式增长,数据格式也不仅限于普通的文本,还包括图片,视频等多媒体数据。这些数据中,大多是没有意义的垃圾数据,那么如何从海量的数据中检索出需要的数据呢?这就推动了分布式计算与全文检索技术的发展。当前最流行的分布式计算框架就是Hadoop,全文检索技术面向大型非结构化数据。例如:文本、图片、视频等。由于实习单位的项目需求,需要实现一个以图搜图功能,因此本文研究基于Hadoop的图像检索。首先,对分布式计算的思想和Hadoop计算框架做了深入研究,然后介绍了全文检索的基本概念与核心流程。此外还介绍了一个全文检索工具包Lucene,为下文的研究奠定基础。然后,对Hadoop MapReduce并行计算框架的内部工作流程进行了深入地分析。通过作业的状态转化,与任务的时序流程,分析了运行过程中可能存在需要优化的地方,并介绍了几种现有的调度算法的优化思路,在此基础上,本文提出了一种新的优化方案。通过合并Job setup/cleanup任务来减少心跳周期,从而缩短作业的运行时间,提高效率。最后,实现了一个图像检索系统。本文针对传统的基于图像的检索框架,提出了一种基于web的图像检索接口框架,利用优化Job setup/cleanup任务的MapReduce模型对所有的图片分布式的构建索引。由于检索的是纽扣图片,对检索精度要求较高,所以将Lire(Lucene image retrieval)提供的提取特征值算法中的Tamura(纹理)与CEDD(颜色)结合起来,定为共同影响图像相似度的因子,提出一种综合的相似度计算公式,并推广出一种综合k种相似度的计算公式。然后介绍了核心步骤,实现该系统。实验证明,检索达到理想效果。
其他文献
国有企业改革需依赖于政府体制改革的深化,否则将无所作为的想法是值得商榷的。 改革的深入使地方政府与企业的改革空间增大,这为国有企业改革提供了一个突破口,只要这种改革实
目的探讨血浆N末端B型利钠肽原(NT-proBNP)水平对介入治疗后急性心肌梗死患者预后的预测价值。方法选因急性心肌梗死入院的患者58例,发病12h内均成功接受经皮冠状动脉介入(PC
《周易》充满了和谐思想:人与自然的和谐,通过阴阳和谐、尚中正、交感比应等表现出来;人际关系的和谐,通过培养诚信、谦虚、宽容的性格、讲求家庭和谐,当政者和民众的交往沟通
明确提出了食品生物技术的概念,综述了生物技术在食品工业中应用的现状,对其前景进行了展望,并探讨了影响食品生物技术发展的一些问题。
本文首先论述了Petri网的概念、性质以及主要的分析方法;介绍了以Petri网标准化为背景的PNML语法规范的定义和性质;并对PTAnalyser开发过程中的用到的JAXP、XLST等关键技术进
一、调查的目的利用体貌特征查破犯罪案件是侦查工作中常用的一种侦查途径.在实际工作中,每当案件发生后,都需要认真地询问被害人和目击者,让他们尽可能详细地描述出犯罪嫌疑
目的探讨ACT在评价哮喘患者使用情况,以了解其临床适应范围。方法病人收自2007年12月至2008年12月,治疗1个月以上复诊患者120例,符合美国胸科协会诊断标准。由熟练ACT评估的
国外优质教育资源的引进、吸收和转化是高等教育领域中外合作办学的核心。一方面,我们要提高国外合作方的质量层次,加强与世界名校、特色学科专业的实质性合作;另一方面,我们
本文简要概述了美、日、英、中等四国的大学入学考试制度发展历程,并通过对各国大学入学考试制度的比较,探讨了对我国大学入学制度的启示。认为一是我国统一的大学入学考试制