搜索引擎中的数据存储问题研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：langguoji

【摘要】

：

随着互联网(Internet)的出现和普及，人们的信息来源得到极大的丰富，获取信息的方式也随之改变。互联网成为人们获取信息的主要来源之一。在Web信息以几何级数增长的情况下，如何

【作者】

：

何华

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2005年期

【关键词】

：

万维网因特网抓取器数据存储搜索引擎信息检索倒排索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网(Internet)的出现和普及，人们的信息来源得到极大的丰富，获取信息的方式也随之改变。互联网成为人们获取信息的主要来源之一。在Web信息以几何级数增长的情况下，如何快速获取所需信息成为研究热点之一。搜索引擎技术(Search Engine)就是在这种背景下孕育而生。搜索引擎是传统的信息检索(Information Retrival)技术与Web结合的产物。传统的信息检索技术是从一定规模的文档库中获取用户需要的信息，其核心是文本信息的索引和检索，检索主要采用传统目录方式和全文检索方式。在信息规模不大的情况下，传统的信息检索技术能够满足需求。在面对Internet 上分散存储、动态变化的海量数据，传统信息检索技术无法让用户快速找到所需要的信息。搜索引擎作为传统IR技术在Web上的扩展，涉及至数据收集、中文分词技术、倒排索引、隐含数据获取、分布式结构、海量数据存储、用户行为分析等关键技术。从功能上看，搜索引擎主要由信息采集、索引、查询三部分构成。搜索引擎首先通过信息采集器(Crawler)从Internet采集网页数据，然后通过索引器(Indexer)对采集数据进行分析，并建立索引。检索器(Searcher)负责接受用户查询请求，通过索引找到所有相关网页，排序后返回给用户。搜索引擎在工作过程中，主要处理的数据有：网页数据、索引数据及URL数据，不同类型的数据在数据容量、更新周期等方面有不同的特点，如何实现对这些数据高效的存储管理是搜索引擎的核心技术之一，也是本文的主要研究对象。本文首先介绍了Web搜索引擎的基本概念和研究现状，阐述了搜索引擎的体系结抅和关键技术；然后分析了搜索引擎的数据存储管理中要处理的主要数据类型及其特点，研究了其他搜索引擎中数据存储的实现，提出了不同的存储支持方案；最后详细描述了一种具体的数据存储系统WDB的实现，并使用WDB实现Crawler的数据存储。

其他文献

基于半随机抽样非完备信息多人机器博弈

机器博弈是人工智能领域公认的极具挑战性的科研方向之一，它的研究为人工智能带来了很多重要的方法和理论，产生了广泛的社会和学术影响。迄今为止，机器博弈已经在二人完备信息方

学位

半随机抽样非完备信息多人机器博弈启发式搜索方法蒙特卡罗抽样技术

基于SSL协议的表单数字签名软件构架研究

本文以集成电子商务软件GECIS开发项目为背景,构造一个基于SSL协议的表单数字签名软件构架模型,为电子商务提供更高安全保障.整个研制工作贯穿基于三层体系结构的构件化软件

学位

SSL协议表单数字签名DSA算法协议实现策略面向对象构架设计模式ACME模板

嵌入式linux操作系统裁剪和定制研究

嵌入式Linux的研究之所以成为当今操作系统研究的热点,是因为它的应用蕴含着巨大的商业价值.嵌入式系统之间差别很大,掌上电脑(PDA)、机顶盒、手机、数码相机、数字电视、家

学位

嵌入式Linux操作系统内核裁剪定制

传感器网络节点调度算法研究与实现

传感器网络是由大量低成本、低能耗、体积小且具有一定计算能力和组网能力的传感器节点组成。传感器节点一般依靠电池供电,其电能有限,并且传感器节点一旦配置后,由于其工作

学位

传感器网络节点调度TinyOSTOSSIM

基于.NET框架的勘探与生产综合信息管理系统应用研究

随着中国石油勘探与生产公司信息化建设的不断发展，需要建设一个勘探与生产综合信息管理系统来提高中国石油勘探与生产公司高层管理决策的及时性和科学性。论文来源于中国

学位

.NET技术架构活动目录信息管理系统

基于颜色纹理的图像检索研究

在数据库系统和计算机视觉两大研究领域的共同推动下,图像检索技术己逐渐成为一个非常活跃的研究领域。基于内容的图像检索不同于传统的基于文本的图像检索,它实际上是一种模

学位

基于内容的图像检索特征提取形状描述纹理提取

改进的蛋白质相互作用位点预测方法研究

蛋白质相互作用位点的预测是当前的一个研究热点，它要研究的内容是确定在蛋白质－蛋白质的相互作用中，某一条链上哪些残基参与了作用。该研究对理解生物体活动机制、蛋白质功能研

学位

蛋白质相互作用位点预测方法特征向量支持向量机人工神经网络

空间关系可视化中物体空间摆放区域确定方法的研究

空间关系可视化是文景转换的核心内容,物体空间摆放区域确定是实现空间关系可视化的重要一步,目的是将空间关系进行定量化。物体空间摆放区域确定的研究来源于国家自然科学基

学位

文景转换空间关系摆放区域方位知识库实体知识库

面向C语言题库的相似试题辨别方法研究

按照传统的教育模式,教师对学生以面对面的方式进行教学、练习和考试,其一律采用手工出题、手工批卷的方式,不但效率很低,而且极大的限制了试卷选题的灵活度。随着计算机技术

学位

语句相似度词相似度C语言题库

无线传感器网络分区路由算法研究

无线传感器网络用于在某些区域内，一般是人类无法或因某种原因不能进入的区域内检测周围环境的各种变量，它的应用范围越来越广泛，其研究已成为无线网络领域的重要课题。无线传感

学位

无线传感器网络路由算法数据融合OMNET++仿真

搜索引擎中的数据存储问题研究

其他学术论文