论文部分内容阅读
随着互联网(Internet)的出现和普及,人们的信息来源得到极大的丰富,获取信息的方式也随之改变。互联网成为人们获取信息的主要来源之一。在Web信息以几何级数增长的情况下,如何快速获取所需信息成为研究热点之一。搜索引擎技术(Search Engine)就是在这种背景下孕育而生。 搜索引擎是传统的信息检索(Information Retrival)技术与Web结合的产物。 传统的信息检索技术是从一定规模的文档库中获取用户需要的信息,其核心是文本信息的索引和检索,检索主要采用传统目录方式和全文检索方式。在信息规模不大的情况下,传统的信息检索技术能够满足需求。在面对Internet 上分散存储、动态变化的海量数据,传统信息检索技术无法让用户快速找到所需要的信息。 搜索引擎作为传统IR技术在Web上的扩展,涉及至数据收集、中文分词技术、倒排索引、隐含数据获取、分布式结构、海量数据存储、用户行为分析等关键技术。从功能上看,搜索引擎主要由信息采集、索引、查询三部分构成。搜索引擎首先通过信息采集器(Crawler)从Internet采集网页数据,然后通过索引器(Indexer)对采集数据进行分析,并建立索引。检索器(Searcher)负责接受用户查询请求,通过索引找到所有相关网页,排序后返回给用户。 搜索引擎在工作过程中,主要处理的数据有:网页数据、索引数据及URL数据,不同类型的数据在数据容量、更新周期等方面有不同的特点,如何实现对这些数据高效的存储管理是搜索引擎的核心技术之一,也是本文的主要研究对象。 本文首先介绍了Web搜索引擎的基本概念和研究现状,阐述了搜索引擎的体系结抅和关键技术;然后分析了搜索引擎的数据存储管理中要处理的主要数据类型及其特点,研究了其他搜索引擎中数据存储的实现,提出了不同的存储支持方案;最后详细描述了一种具体的数据存储系统WDB的实现,并使用WDB实现Crawler的数据存储。