基于SolrCloud平台的分布式全文检索系统的设计与实现

被引量 : 0次 | 上传用户:wuyouan321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,海量数据不断涌入人们的日常生活、学习和工作中,如何存储和管理这些飞速增长的数据?如何从已有的这些海量数据中将对自己有用的信息准确高效地提取?面对这些日益严峻的挑战和经济突飞猛进地发展,各类政府机构也对业务信息化有了越来越高的需求,专项网络信息平台的建立已经成为当务之急。从最初的政务信息化到今天,政府机构已经积累了大量的结构化数据和非结构化数据,对于审计厅来说,各种报表和法律法规文档等全文数据更是数不胜数,这些数据都需要记录在案,当进行审计业务和审计法律法规重新修订等工作时,工作人员不得不大量翻阅这些历史文件。这种情况下仅仅利用原有的数据库查询功能,或者人工查阅实体文本资料将会严重影响工作效率,由此我们想到可以利用全文检索技术来满足政府机构的以上需求。通过对审计厅资料库内的各种数据进行全文索引,工作人员在需要某项信息时,可以检索到各种类型的数据。由于审计工作都是分季度进行的,所以在某个时段工作人员需要集中进行操作。综合以上分析,我们决定构建一个分布式的全文检索系统来满足审计厅的需求。本文利用基于Solr和ZooKeeper的分布式搜索方案,搭建Solr服务器集群,构成SolrCloud平台,在SolrCloud上创建、存储和管理大型资料库文档和数据库信息的索引,以此为基础,构建一个分布式的全文检索系统。用户可登陆系统,普通用户可以对企业内部大量文档进行检索、预览和下载等操作,除此之外,管理员还能上传、存储和管理这些文档,从而达到机构内部资料共享的目的。文中首先探讨了全文检索和分布式搜索引擎的发展背景和研究现状,详细介绍了SolrCloud的架构和特点,以及全文检索的机理。接下来我们根据审计厅的具体要求,对分布式全文检索系统在四个层面上进行了需求分析,并对系统进行了开发环境设计,总体设计和详细设计,详细设计中给出了SolrCloud服务器集群、分布式索引、分布式检索的设计方案,随后介绍了以上设计方案的具体实现方法,并对索引的创建和检索响应进行了性能测试。文章最后对本文所做的全部工作进行了简单的总结,并且提出了可进一步研究的内容。
其他文献
流浪汉体裁小说继承了荷马史诗的叙事结构和人物塑造方法,它的发展与中世纪西欧文学有着千丝万缕的联系,同时流浪汉小说的盛行又是社会文化积淀的必然产物。这一派小说家为了要
动词用来表示事物的行为或状态,在句中主要用作谓语,副动词是动词的一种形式,是俄语特有的一种语言表达手段,它往往和其它成分一起,构成副动词短语使用。本文对副动词和副动词短语
回火焊道焊接技术作为取代焊后热处理的新型焊接修复技术受到了国外的广泛关注,已将其成功地应用于核电部件的焊接修复,国内对回火焊道焊接技术的实现条件、改善机理以及焊后性
农业循环经济发展研究是当今可持续发展研究及政府相关决策的核心内容,是世界各国经济发展过程中必不可少的一个环节,是一个国家实现经济、社会、环境协调发展的必经之路。吉林
目的分析在老年糖尿病肾病患者进行血液透析过程中实施优质护理的效果。方法选取2015年10月至2017年9月本院120例老年糖尿病肾病患者为本次研究对象,所有患者均采用血液透析
<正>《诗经》又称《诗三百》是中国最早的诗歌总集,是我国古典文学现实主义的源头。其内容分为"风、雅、颂","饥者歌其食,劳者歌其事",爱情、稼穑、狩猎、祭祀、颂德、控诉,
目的探讨分隔输液器对提高护理工作效率的效果。方法将100例输液患者随机分成2组,实验组和对照组各50例,实验组使用分隔输液器进行输液,对照组使用普通输液器进行输液,比较2
在云南少数民族地区,原始宗教仍然作为其固有信仰存在着,它往往反映着一个民族、一个地域最初的信仰状态,是乡土文化的根基所在。在一个民族地域信仰体系中,原始宗教是宗教历
海带是我国沿海丰富的海藻资源,成本低、营养价值高,是海参理想的天然饵料,但海带多糖含量高达50%,大规模使用后会使养殖水体发粘、滋生细菌,诱发海参病变。因此本项目试图通过生
目的:研究黄芪注射液对小鼠H22移植瘤的生长抑制作用及免疫功能的影响。方法:采用移植性H22肝癌小鼠模型,随机分为模型对照组,5-Fu处理组,黄芪注射液高、中、低剂量组。分别