【摘 要】
:
搜索引擎是Web信息检索的主要工具,Crawler是搜索引擎的核心组件,用于搜集Web页面。实现一个可扩展、高性能、大规模的中文搜索引擎,核心是设计一个可扩展、高性能、大规模的
论文部分内容阅读
搜索引擎是Web信息检索的主要工具,Crawler是搜索引擎的核心组件,用于搜集Web页面。实现一个可扩展、高性能、大规模的中文搜索引擎,核心是设计一个可扩展、高性能、大规模的Crawler。考虑到Web的容量以及增长速度,设计了并行Crawler系统,该系统由多个Crawler进程组成,每个Crawler进程运行在一台机器上,一台机器只运行一个Crawler进程。Crawler进程有自己的本地页面库和本地索引库,它下载的页面以及对页面建立的索引分别保存在本地页面库和本地索引库中。为了在各个Crawler进程之间进行协调,避免并行Crawler系统下载页面重叠,设计了URL服务器。它运行在单一机器上,用于在各个Crawler进程之间分配URL,以及存放Crawler进程新发现的URL。考虑到数据库的负载,实现了多数据库并行存取技术。每个Crawler进程就是一个小型搜索引擎,这些搜索引擎一起组成了一个大规模搜索引擎,为了在多个Crawler上进行检索,设计了检索服务器,它将用户的检索请求提交给各个Crawler,由Crawler查询自己的索引库,并将检索结果返回给检索服务器,检索服务器对结果排序输出。为了减少页面集批量更新的巨大开销,研究了增量式Crawler。它用于对页面集中某些页面进行更新以便达到刷新整个页面集的目的。但是增量式Crawler需要知道页面集中哪些页面发生了变化,为此使用人工神经网络建立了页面变化模型,该模型可以预测页面下一次变化的时间,从而确定对Web上实际页面进行重访来完成页面集的刷新任务。
其他文献
随着网络的发展和普及,特别是互联网应用的飞速发展和普及,网络安全越来越受到人们的普遍关注。人们在享受信息化带来的众多好处的同时,也面临着日益突出的信息安全问题。
计算能力的飞速发展与知识的爆炸性增长是当前的两大趋势。个人在这样的环境下加强知识管理是一个必然的选择。个人知识管理成为一个新兴的研究领域,取得了一些成果。首先,这些
本文进行了如下的研究工作:1.提出了一种基于多分辨率思想的多层分类器的手语识别方法.该方法对来自数据手套的手语输入,首先阐述了主成份分析方法、独立成份分析方法、最大
本文采用嵌入式设计方案和MPEG-4软件压缩技术,设计了一个基于TCP/IP的嵌入式网络视频服务器系统,该系统分为数据采集、控制服务、压缩处理和网络传输几部分。以TI的TMS320
本研究的目的是希望利用信息技术来实现针对空巢家庭老人的连续性、无监督的家庭日常生活的智能监护,这样的方法一方面可以降低子女和社会的压力,另一方面也可以消除老人对
本文对实时事务的调度进行了研究,提出了双截止期双优先级的优先级分派方法和基于该优先级分派方法的定时调度策略;这些方法和策略在现有技术的基础上,深入考虑实时事务的需求
本文通过对入侵检测的历史、分类以及目前的研究现状进行详细的分析,总结了目前入侵检测领域的成就及不足,提出了在大流量网络环境下的入侵检测应当解决的问题.在总结归纳的
随着信息技术的发展,资源系统的规模和数量不断扩大,系统的管理和集成日趋复杂,如何设计合理的资源管理基础架构成为亟待解决的基本问题。本文旨在研究一种新型的管理框架来
本文的几个研究方面包括语音库的建设、文本标准化、拼音标注、停顿指数标注、重音判别。都是围绕着将文本向语音的中间过渡阶段的转化这个主题以及为转化提供相应的资源
CORBA Common Object Request Broker Architecture通用对象请求代理结构)是一个分布式的面向对象应用架构规范。CORBA真正地实现了跨平台性。CDMA(Code Division Multiple A