中文搜索引擎的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：mgqzhineng

【摘要】

：

搜索引擎是Web信息检索的主要工具,Crawler是搜索引擎的核心组件,用于搜集Web页面。实现一个可扩展、高性能、大规模的中文搜索引擎,核心是设计一个可扩展、高性能、大规模的

【作者】

：

王军

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2004年期

【关键词】

：

搜索引擎神经网络网络爬虫中文分词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

搜索引擎是Web信息检索的主要工具,Crawler是搜索引擎的核心组件,用于搜集Web页面。实现一个可扩展、高性能、大规模的中文搜索引擎,核心是设计一个可扩展、高性能、大规模的Crawler。考虑到Web的容量以及增长速度,设计了并行Crawler系统,该系统由多个Crawler进程组成,每个Crawler进程运行在一台机器上,一台机器只运行一个Crawler进程。Crawler进程有自己的本地页面库和本地索引库,它下载的页面以及对页面建立的索引分别保存在本地页面库和本地索引库中。为了在各个Crawler进程之间进行协调,避免并行Crawler系统下载页面重叠,设计了URL服务器。它运行在单一机器上,用于在各个Crawler进程之间分配URL,以及存放Crawler进程新发现的URL。考虑到数据库的负载,实现了多数据库并行存取技术。每个Crawler进程就是一个小型搜索引擎,这些搜索引擎一起组成了一个大规模搜索引擎,为了在多个Crawler上进行检索,设计了检索服务器,它将用户的检索请求提交给各个Crawler,由Crawler查询自己的索引库,并将检索结果返回给检索服务器,检索服务器对结果排序输出。为了减少页面集批量更新的巨大开销,研究了增量式Crawler。它用于对页面集中某些页面进行更新以便达到刷新整个页面集的目的。但是增量式Crawler需要知道页面集中哪些页面发生了变化,为此使用人工神经网络建立了页面变化模型,该模型可以预测页面下一次变化的时间,从而确定对Web上实际页面进行重访来完成页面集的刷新任务。

其他文献

多重监控代理服务器研究及实现

随着网络的发展和普及,特别是互联网应用的飞速发展和普及,网络安全越来越受到人们的普遍关注。人们在享受信息化带来的众多好处的同时,也面临着日益突出的信息安全问题。

学位

防火墙代理服务器远程监控

基于信息技术的PKM研究

计算能力的飞速发展与知识的爆炸性增长是当前的两大趋势。个人在这样的环境下加强知识管理是一个必然的选择。个人知识管理成为一个新兴的研究领域，取得了一些成果。首先，这些

学位

知识管理关系数据库面向对象理性智能系统高校教学

手语数据的分析和处理在手语识别和手语生成上的研究

本文进行了如下的研究工作:1.提出了一种基于多分辨率思想的多层分类器的手语识别方法.该方法对来自数据手套的手语输入,首先阐述了主成份分析方法、独立成份分析方法、最大

学位

手语识别多分辨率识别数据分析数据生成手语数据

基于TMS320DSC25的嵌入式网络视频服务器系统设计

　　本文采用嵌入式设计方案和MPEG-4软件压缩技术，设计了一个基于TCP/IP的嵌入式网络视频服务器系统，该系统分为数据采集、控制服务、压缩处理和网络传输几部分。以TI的TMS320

学位

网络视频嵌入式系统软件压缩通信协议

高龄化社会人本信息技术研究-家庭智能监护系统

本研究的目的是希望利用信息技术来实现针对空巢家庭老人的连续性、无监督的家庭日常生活的智能监护，这样的方法一方面可以降低子女和社会的压力，另一方面也可以消除老人对

学位

高龄化社会空巢家庭老人家庭智能监护

实时数据处理事务调度与控制研究

本文对实时事务的调度进行了研究，提出了双截止期双优先级的优先级分派方法和基于该优先级分派方法的定时调度策略；这些方法和策略在现有技术的基础上，深入考虑实时事务的需求

学位

实时数据库实时事务事务模型

高效网络入侵检测系统的研究

本文通过对入侵检测的历史、分类以及目前的研究现状进行详细的分析,总结了目前入侵检测领域的成就及不足,提出了在大流量网络环境下的入侵检测应当解决的问题.在总结归纳的

学位

入侵检测规则学习信息融合TSDM异常检测算法

虚拟管理框架研究及其在VSDS中的实现

随着信息技术的发展,资源系统的规模和数量不断扩大,系统的管理和集成日趋复杂,如何设计合理的资源管理基础架构成为亟待解决的基本问题。本文旨在研究一种新型的管理框架来

学位

存储系统虚拟管理框架资源管理体系结构虚拟用户系统统一管理

汉语文语转换中韵律标注的研究

本文的几个研究方面包括语音库的建设、文本标准化、拼音标注、停顿指数标注、重音判别。都是围绕着将文本向语音的中间过渡阶段的转化这个主题以及为转化提供相应的资源

学位

汉语文语转换韵律标注停顿指数标注重音判别语音库文本标准化

CORBA技术在CDMA网络综合管理系统中的应用

CORBA Common Object Request Broker Architecture通用对象请求代理结构)是一个分布式的面向对象应用架构规范。CORBA真正地实现了跨平台性。CDMA(Code Division Multiple A

学位

CORBA中间件CDMA系统网络接口综合网络管理系统

中文搜索引擎的设计与实现

其他学术论文