支持查询剪裁的搜索引擎数据缓冲策略

来源 :浙江大学 | 被引量 : 0次 | 上传用户:woshishaoqiaolin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
商用搜索引擎对查询请求的处理速度有很高的要求,尤其是在因特网已发展到数百亿网页规模的背景下,如何在保证返回结果质量的前提下,尽可能提高搜索引擎查询处理能力成为了搜索引擎等领域的研究热点,其中对索引系统的优化是众多优化方法关注的核心环节。在目前所采用的搜索引擎优化技术中,查询剪裁和缓冲算法是两种极为重要的搜索引擎优化方法。 本文研究了结合查询剪裁的搜索引擎数据缓冲策略,主要工作包括: (1)提出了一种新的基于“关键词组合命中信息列表交集”的查询剪裁方法。该剪裁方法利用“关键词组合命中信息列表交集”的组织形式能体现出网页对于特定查询条件的重要性,实现了与基于查询网页评价函数有机结合,同时提升精确匹配查询的处理速度。 (2)提出了基于一种新的索引系统架构的搜索引擎数据缓冲策略。新数据缓冲策略将高频关键词组合的命中信息列表交集放入缓冲区,综合利用离线和在线替换算法提升该缓冲区的性能。同时,由于在传统索引系统架构上部署该缓冲存在诸多局限性,该文提出了一种新的索引架构,利用这种索引系统架构,可充分利用索引系统的硬件资源,并能显著增强查询剪裁算法的效能。 (3)设计并实现了一个结合查询剪裁的搜索引擎缓存管理原型系统,该原型系统实现了基本的索引子模块功能。对原型系统的一系列实验表明,应用文中所提出的结合查询剪裁的搜索引擎缓冲策略,在保证搜索引擎返回结果未受明显影响的前提下,对查询请求的处理达到了较高的查询剪裁率,有效的提高了搜索引擎的性能。
其他文献
事务处理技术是保证信息一致性和可靠性的关键技术。传统的事务处理技术主要应用于集中式或分布式数据库系统,具有原子性、持久性、一致性和隔离性的特点。近年来,随着移动通信
随着互联网应用的发展,网络安全日益重要。入侵检测系统(IDS)作为和防火墙、加密系统并列的一种安全手段得到了很大的发展。入侵检测技术作为一种主动地安全防护技术,及时地检
随着计算机网络的普及,越来越多的资源以数字形式在网络上传播,随之而来的是日益严重的盗版问题。保护版权所有者的利益,使得数字作品发行能够持续健康地发展是一个亟需解决的问
移动自助服务系统作为一种新型的服务方式,其出现能帮助移动 运营商解决用户群体日益增大与传统营业厅、代办点服务能力不足之 间的矛盾。本文针对如何建设适合国内移动通信
词义消歧(WSD)技术是计算机根据文本距离、上下文语境等特征来自动获取并确认词语的意义。词义歧义是指一词多义,即一个词在不同的上下文中有不同的词义,也称为歧义词。而词义
基于组件的软件开发是近几年来软件工程中一种新兴的方法。软件组件技术是解决软件复用、缩短软件编写时间、降低维护成本和实现程序动态升级的最新和强有力的方案。对基于组
随着信息技术的应用在深度和广度上的扩展,应用系统的通用性、可订制性、高性能和高可靠性越来越受到人们的关注,中间件技术能很好的提高计算机软件开发灵活性,减少冗余和缩
国际人工智能协会组织的机器人世界杯RoboCup(The Robot World Cup Soccer Games and Conferences)仿真比赛系统,是人工智能和机器人研究的一种集中表现,它的仿真比赛融合了决策
机器人足球仿真比赛是一个在智能机器人领域出现的典型的多智能体系统(Multi-Agent System)。它是一个集成行为决策技术、智能控制技术、仿真技术、对策论及社会组织学等多学
随着信息时代的发展,多媒体技术作为计算机通信、信息存储、Internet网络传输等信息技术的最活跃的研究领域之一,引起了业界人士的广泛关注。其中,图像数据因为能给人们以直观、