Web搜索引擎的缓存策略研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:yxsaisai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
查询处理过程是Web搜索引擎中消耗时间最多的一个过程。缓存技术是一种用于优化查询处理过程的通用方法。而在缓存技术中,对缓存策略的研究显得尤为重要。   针对Web搜索引擎的缓存策略这一问题,本文分析了当前的几种基于规则的算法,提出了改进的基于规则的算法——DDC算法,有效地提升了缓存的性能。接着,本文进一步挖掘查询日志中的其他信息,提出了基于特征的缓存算法,更进一步地提升了缓存的性能。具体来说,本文的主要研究内容如下:   本文首先介绍和分析了查询日志数据的特性,并对基于规则的基本方法做了简要分析和实验结果的对比,验证了静态-动态相结合的SDC算法是当前性能最优的算法。   接着,本文分析了SDC算法的不足,提出了DDC算法。在SDC算法中,缓存被分为两个部分,静态部分和动态部分。动态部分保留了最近被请求的查询结果,静态部分保留了全局被请求频数最多的查询结果。而因为这部分是静态的,所以该部分数据只是对前一阶段的统计,不能及时更新,这让后来被请求的频数很高的查询结果没有机会加入静态缓存部分,因此本文提出的DDC算法将这部分也改成动态的,但仍然以保留全局被请求频数最高的查询结果为目标。在这部分缓存中,使用累计频数的算法更新此部分缓存,如LFU算法。本文通过实验论证了DDC算法在两个评价指标上都取得了较优的性能。   然后,本文进一步分析查询日志的其他特征,发现查询被再次请求的概率不仅与查询本身的查询时间和次数相关,它与查询词和查询用户也相关,这在之前的基于规则的缓存算法中并没有涉及。本文从距离、频数、用户数等方面考虑,提出基于特征的缓存算法。本文给出了数据的九大特征,具体算法描述和实验结果。与基于规则的缓存算法实验结果对比,基于特征的缓存算法取得了更进一步的性能的提升。最后,本文将提出的这两种缓存算法应用于IRIS搜索引擎的查询日志中,取得了较为理想的应用结果。本文提出的两种缓存算法具有较好的应用性。
其他文献
随着信息技术的飞速发展,全球经济呈现出一体化的趋势,数据不再是集中式的存放在一个站点上,绝大多数数据库以分布式的形式存在,即数据是分布在两个或多个站点上。为了挖掘出
模块化非线性系统作为非线性系统的一种形式,因其结构简单,适应性强,被广泛应用于工业系统中。但由于各种非线性特性的存在,经典的线性系统辨识方法无法直接应用于这类系统的辨识
学位
随着不断增长的成品油市场,如何保证油品准确计量、公平交易以及维护加油站管理秩序、提升加油站市场竞争力已经成为政府和社会关注的焦点。同时伴随着云计算技术的发展和应用
在石油钻井工程技术中,随钻测量系统可以在井下靠近钻头处实时测量近钻头的钻压、扭矩等工程参数,真实的反映井下工作状况,以提高钻头的工作效率,有效避免钻井事故的发生,实
固体氧化物燃料电池(SOFC)具有高能量转化效率、零污染、零噪声等优点,因此是一种十分理想的可替代能源。SOFC在应用中,要保持安全、高效的运行状态,SOFC电堆的工作温度环境起着关键作用,为此必须为其设计出合理的SOFC热管理系统对其工作温度进行合理、有效的控制。SOFC热管理系统的设计需要考虑的因素很多,主要包括工艺结构的设计、控制策略的设计、控制策略的实现等几个重要方面,本文将从以上这三个方
随着人们对娱乐影音的体验要求不断提高以及3D电影的面市,3D视频逐渐成为当今计算机视觉和多媒体领域的新兴研究热点。由于3D视频较传统的2D视频增加了“景深”这一属性,因此
永磁同步电机(PMSM)因其具有高功率密度、高效率以及控制性能好等特点,在高性能伺服系统以及其他工业场合中得到大量应用。但功率密度和控制性能会受到电机温度上升以及磁饱和等
自主避障需要机器人本体、感知单元、智能算法等多方面综合协调,是衡量移动智能机器人智能化程度的关键指标,在机器人应用技术日益满足各种实际需求的过程中,自主避障得到了
为了保证电力系统运行的安全性、稳定性和经济性,电力系统调度中心需要迅速、准确而全面地掌握电力系统的实际运行状态,从而对运行中的各种问题能够及时准确地提出解决对策。目前电力系统中广泛应用SCADA(数据采集和监控系统)进行数据的采集和传输,其中的数据采集、模数转换和传输等过程均有可能产生误差,各个过程有时还可能受到干扰或出现故障,因此调度中心计算机接收到的数据与真实数据之间难免存在一定的差异。这会影