分布式搜索引擎缓存设计及优化

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:gumozaoshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网是个巨大的信息资源库,从这个资源库中提取和检索出有用信息是个很重要的课题。搜索引擎是通用的信息检索服务。 搜索引擎一般由Crawler、索引库、检索器和用户接口组成。Crawler从Web上下载页面:分析器对下载页面的内容进行分析以用于建立索引:索引器将文档表示为一种便于检索的方式并存储在索引数据库中:检索器实现用户查询关键词和目标文档匹配度的计算:用户接口为用户提供一个输入查询请求,定制查询结果的Web页面并将查询结果格式化后返回给浏览器。 由于搜索引擎处理的对象是十分庞大的数据量,同时互联网的结构是分布式的,搜索引擎设计成分布式并行处理的系统同时用若干机器协同计算处理,分布式并行的方法可以取得更好的性价比。本文论述构建一种基于分布式并行计算技术的Web搜索引擎模型架构。采用分布式并行编程模式,选用了任务分发模式。在并行编程中线程是流行的模型,在并行计算上采用C++ Thread Pool的编程模型。消息传递对分布式的并行编程是有效的,在分布式计算的消息传递上采用C++的Socket通信方式。 在Web搜索引擎的设计上,主要论述了缓存优化的相关技术。缓存设计的好坏直接影响搜索引擎的相应速度,本文论述了一种搜索引擎缓存的设计方法。
其他文献
随着我国经济的发展和改革的深入,越来越多的企业选择了集团化运作的方式来进行组织和管理。集团型企业通过对内部资源的整合,将分散在各下属企业的采购业务归口到集团采购中
随着计算机技术和通信技术的发展,人们对个人信息安全的要求越来越高。在这种情况下,一种新的身份鉴别方法——生物特征识别技术——得到了广泛的应用。人脸识别技术是生物特
随着我国3G牌照的发放,无线通信的带宽将会得到极大的提高,移动流媒体作为3G网络中一个重要应用,具有广阔的发展前景,而代理服务器作为移动流媒体应用中的核心组件,是当前的
随着计算机和网络技术的高速发展,自然语言识别技术越来越重要,机器翻译、信息检索、自动文摘等自然语言技术已经在很多领域被采用并取得了很好的效益。计算机技术也改变了人们
基于案例的推理(Case—Based Reasoning)是一种基于记忆,利用过去的案例和经验来解决新问题的一种方法,它可以看作是从一个案例到另一个案例的类比推理。由于CBR具有易学易用,知
随着网络技术和通信技术的进步,短消息业务得到了迅速发展,特别是服务提供商的运作使其也不断深入到多个领域,包括办公、银行、金融等。但是,短消息业务本身有着不可避免的缺
无线传感器(Wireless Sensor Networks, WSNs)网络是一种自组织网络,它是由部署在目标区域的大量传感器节点所构成。随着科技的进步,无线传感器网络在军事国防、环境监测、灾
传统分布式计算技术CORBA、DCOM和RMI不适合于在松散耦合、异构的、有防火墙的Internet网络环境下进行电子商务应用系统的设计开发,而基于XML/Web服务的分布式电子商务系统则
烟支计数是中小型卷烟厂的生产车间必须完成的一道工序。通过数码相机对盛装烟支的烟盘拍照获得烟支图像,采用图像识别的方法对烟支进行自动识别与计数将是一种可选的方案。
在交互式系统开发中,图形用户界面的设计开发非常重要。但是现有的软件工程方法缺少对用户界面设计描述的直接支持,制约了图形用户界面的开发效率和质量。 为提高图形用户界