论文部分内容阅读
随着大数据时代的到来,海量数据不断涌入人们的日常生活、学习和工作中,如何存储和管理这些飞速增长的数据?如何从已有的这些海量数据中将对自己有用的信息准确高效地提取?面对这些日益严峻的挑战和经济突飞猛进地发展,各类政府机构也对业务信息化有了越来越高的需求,专项网络信息平台的建立已经成为当务之急。从最初的政务信息化到今天,政府机构已经积累了大量的结构化数据和非结构化数据,对于审计厅来说,各种报表和法律法规文档等全文数据更是数不胜数,这些数据都需要记录在案,当进行审计业务和审计法律法规重新修订等工作时,工作人员不得不大量翻阅这些历史文件。这种情况下仅仅利用原有的数据库查询功能,或者人工查阅实体文本资料将会严重影响工作效率,由此我们想到可以利用全文检索技术来满足政府机构的以上需求。通过对审计厅资料库内的各种数据进行全文索引,工作人员在需要某项信息时,可以检索到各种类型的数据。由于审计工作都是分季度进行的,所以在某个时段工作人员需要集中进行操作。综合以上分析,我们决定构建一个分布式的全文检索系统来满足审计厅的需求。本文利用基于Solr和ZooKeeper的分布式搜索方案,搭建Solr服务器集群,构成SolrCloud平台,在SolrCloud上创建、存储和管理大型资料库文档和数据库信息的索引,以此为基础,构建一个分布式的全文检索系统。用户可登陆系统,普通用户可以对企业内部大量文档进行检索、预览和下载等操作,除此之外,管理员还能上传、存储和管理这些文档,从而达到机构内部资料共享的目的。文中首先探讨了全文检索和分布式搜索引擎的发展背景和研究现状,详细介绍了SolrCloud的架构和特点,以及全文检索的机理。接下来我们根据审计厅的具体要求,对分布式全文检索系统在四个层面上进行了需求分析,并对系统进行了开发环境设计,总体设计和详细设计,详细设计中给出了SolrCloud服务器集群、分布式索引、分布式检索的设计方案,随后介绍了以上设计方案的具体实现方法,并对索引的创建和检索响应进行了性能测试。文章最后对本文所做的全部工作进行了简单的总结,并且提出了可进一步研究的内容。