搜索引擎精简摘要缓存方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:ontrackfor19888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在应答一个来自用户的查询(query)时,现代搜索引擎会返回给用户前k个相关的查询结果及其摘要。摘要是一小段摘选于文档的文本,该段文本归纳了查询词与文档的相关关系。生成摘要既需要消耗大量系统I/O来检索文档,又需要消耗大量的CPU来计算摘要。搜索引擎常常使用缓存技术来减少摘要生成过程的延迟。固态硬盘(Solid State Drive, SSD)是一种新兴的存储介质,它的I/O效率比传统的机械硬盘(Hard Disk Drive, HDD)快30倍到120倍。随着固态硬盘的性价比逐步提高,搜索引擎公司开始用固态硬盘替换传统机械硬盘。替换后搜索引擎系统I/O性能不断提高,性能瓶颈从I/O转变为CPU计算。为了应对固态硬盘带来的变化,进一步提升系统性能,本文提出了一个简单但有效的方法:用精简摘要(Fragment)替换原始的摘要。精简摘要在不改变摘要质量的前提下,仅存储摘要的位置信息。该方法空间利用率更高。返回摘要前精简摘要需恢复为完整摘要。针对精简摘要在恢复过程引起的文档检索,本文提出了使用精简文档(Short Document)替换完整文档的方法。精简文档同样也能够提高文档缓存的空间利用率。本文的主要工作包括:1.为了减少平均摘要生成延迟,本文设计了摘要的精简表示方法。精简摘要记录摘要在文档中的位置信息。在返回摘要前,精简摘要需要经过计算才能恢复成完整摘要。在相同的缓存空间下,精简摘要缓存的命中率远高于完整摘要缓存命中率。精简摘要缓存能够大量避免重复摘要计算。精简摘要恢复完整摘要的过程会引起文档检索以及一小部分额外计算,额外计算增加的摘要生成延时远小于精简摘要高命中率减少的摘要生成延时。2.为了减少在精简摘要恢复过程引起的文档检索延迟,本文在精简摘要的基础上,设计了配套的精简文档缓存。与文档缓存存储整篇文档不同,精简文档缓存仅存储文档中用来恢复完整摘要的句子。由于精简文档存储的内容更为精细,空间利用率更高,精简文档缓存能够有效减少摘要恢复过程的I/O。配套精简摘要缓存,精简文档缓存能够进一步提高摘要生成效率。通过实验我们发现,精简缓存使摘要缓存的空间利用率提高了15倍,精简文档缓存的空间利用率提高了6倍。
其他文献
随着芯片内植入晶体管数量的逐年递增,在一块芯片内集成更多的处理器内核是可能的,根据摩尔定律,微处理器的速度以及单片集成度每18个月就会翻一番。那么,照此下去,到2010年
随着技术的发展,每天都有大量图片上传到互联网。特别是随着智能手机的应用,人们可以很容易地拍摄、编辑和上传图片。场景分类的目标是根据图像的视觉内容为图像赋予一个语义类
实时数据库(Real Time Database,RTDB)作为监控组态软件设计与实现的核心内容,解决了其所应对的现代工业生产现场环境中生产数据与控制数据类型复杂多样,数据处理与事件调度
指令集仿真器具有成本低、开发快捷、可操控性好等优点,得到了广泛的应用,但是手工开发,周期长,且易出错,自动生成的仿真器则速度相对较慢,因而,本文旨在构造一种速度更快的
电力系统仿真分析技术是分析判断电力网稳定性和安全性的有力工具。当前,传统的电力系统仿真软件存在着系统耦合性较高、自动化程度较低等问题,越来越难以满足电力系统对暂态仿
随着信息技术和管理理论的发展以及计算机网络的广泛应用,工作流技术正在成为计算机应用领域的研究热点。现代企业的信息系统的分布性、异构性和自治性的特征越来越显著,企业
面向服务即SOA(Service-Oriented Architecture)是一种进行系统开发的新的体系架构,而Web服务技术已经成为越来越多企业的首选方案,因为其具有低耦合的特性使得软件、系统的集成
Web Services技术已经在数据交换平台中得到了广泛应用,为了对数据交换平台进行统一监控和管理,需要建立数据交换平台管理监控系统。由于WebServices具有开放性、跨平台和互
随着网络的快速发展,人们在使用网络提供的各种服务和信息的同时也面临着日益增加的网络入侵的困扰,网络安全成为迫切需要解决的问题之一。异常检测是目前入侵检测系统研究的主
密码学作为信息保护的手段,最早应用在军事和外交领域,随科技的发展逐渐进入人们的生活中。传统的对密码协议的建模和分析主要包括:代数模型,逻辑模型,逻辑和代数模型,代数和