基于Map/Reduce的分布式智能搜索引擎框架研究

被引量 : 55次 | 上传用户:xyz880330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了互联网所蕴藏的巨大商机。互联网离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。如今互联网中的信息每天以指数级的数量增长,面对海量数据的处理和存储,传统的集中式搜索引擎显得无能为力。另外传统搜索引擎系统一般都采用关键词匹配模式,无法理解用户搜索意图,使得用户在互联网上搜索自己真正需要的信息很困难。因此搜索引擎的分布式智能化是未来发展的趋势。本文从研究和设计的角度出发,对分布式智能搜索引擎的相关理论和技术进行了详细的分析和讨论,将基于Map/Reduce的分布式智能搜索引擎框架研究分为三个层次,即分布式并行计算理论方法研究、搜索引擎原理的研究以及基于分布式的智能搜索引擎研究。论文主要研究的内容如下:论述了目前搜索引擎的国内外发展现状、存在的问题以及发展趋势;分析了搜索引擎的工作原理以及各部分的主要功能;对分布式计算理论、网格计算、云计算、Map/Reduce分布式计算模型进行分析与研究。对开源搜索引擎工具包Lucene、开源分布式计算框架Hadoop进行了详细的分析与研究。在基于Map/Reduce的分布式计算模型的基础上,借助语义词典,对分布式的智能搜索引擎系统进行了研究。设计并实现了基于Map/Reduce的分布式智能搜索引擎——IEBSou。重点阐述了IEBSou系统框架的实现.不仅给出了系统各模块之间的关系,而且还分析了各个模块的实现原理和思想。对IEBSou的Map/Reduce基础框架进行了设计;结合Lucene设计了统一文档处理框架,并对中文分词中人名识别、新词的识别进行了研究;提出了基于Map/Reduce的网页消重算法;提出了通过构建概念集的方式来提供基于语义联想的搜索推荐词生成算法。借助语义词典,对用户搜索关键词的概念进行语义扩展,构造概念集,让系统智能的理解用户搜索意图,提高系统的查全率和查准确率。
其他文献
参与式治理是参与式民主、协商民主的应用与实践。参与式治理是普通民众对政府公共决策和执行过程的直接参与,有助于政府决策的民主化和科学化,在政府与民众的良性互动中增强
硅溶胶陶瓷型精密铸造工艺与传统的熔模精密铸造工艺相比,具有生产周期短、精度高、表面质量和溃散性好的特点,特别适用于与快速成型技术(RP)相结合来快速制造金属零件。本文
本文对59例甲状腺再手术病例进行分析,探讨甲状腺再手术的原因、适应证及手术方法。结果表明再手术甲状腺59例中,甲状腺肿瘤42例(71.2%),甲亢术后复发17例(28.8%)。并发症发
大量的电力电子装置的使用给电网造成非常严重的谐波污染,为了使它们的输入电流谐波满足相关的谐波标准,必须在其输入侧加入功率因数校正(PFC)环节。单级PFC技术是当前电力电
亚洲金融危机爆发以后,东南亚海域再次成为全球海盗活动频发的高危地带,特别是九一一事件以来,该地区的海盗活动呈现出与海上恐怖主义合流的新动向。目前的国际法体系对东南
目的探讨早期静注人免疫球蛋白治疗重症手足口病的临床效果。方法选取进行治疗的重症手足口病患儿100例,按照家属同意且知情原则进行分组,平均分为观察组和对照组2组(n=50)。
通过对LF炉热态钢渣渣系及硫容量的研究,酒钢炼轧厂采取了相关措施,实现了经LF炉精炼处理炉次热态精炼渣循环利用,取得较好效果,实现了钢渣综合利用,节能降耗的目标。
既有国际公共产品理论从单向消费者的视角更多地强调供应不足,这导致了诸多理论困境。文章认为应从国际公共产品的消费者—供应方双向互动的视角重新审视这一理论。供应不足
目的观察Toll样受体1、2、3、4在新生儿感染性疾病中的表达情况,探讨它们在新生儿抗感染免疫中的作用。方法收集感染性疾病患儿外周血(感染性疾病包含有败血症、细菌性肺炎、
目的对动态心电图与常规心电图诊断冠心病患者心律失常的临床价值进行分析。方法选取84例冠心病患者,随机均分成动态心电图诊断组和常规心电图诊断组(n=42),对2组患者的诊断