论文部分内容阅读
互联网大数据时代已经到来,网络给人们提供了丰富的信息资源。面对海量的互联网信息,如何快速准确的获取有价值的信息成为了一个难题。信息采集与检索系统应用而生,但是通用的全网搜索引擎在信息采集时忽略了信息的主题和处理顺序,致使搜索结果主题宽泛,夹杂不相关信息,需对其进行“二次处理”才能获得有价值的信息。针对这一问题本文研究了信息采集的相关技术和方法,提出了面向具体领域的站内深度信息的采集与搜索的方法,并实现了信息索引的构建及动态维护和优化,提供高质量的站内信息搜索服务。本文所做工作概括为以下三方面:1)对信息采集工具Nutch、分布式数据处理框架Hadoop的文件系统和MapReduce工作流程进行了研究,实现了Nutch的分布式信息采集,将非结构化的网络信息转变为结构化的文件存储。2)通过对索引工具Lucene倒排索引的研究,为采集所得的规范化文件信息创建了倒排索引,为索引的查询和进一步处理打好基础;提出并建立了索引池模型,利用索引评估函数,实现对索引池的维护及动态优化,提高了索引质量。3)设计开发了网络信息采集与搜索系统,并提供用户兴趣爱好分类收藏和信息定时推送服务。