基于固态硬盘的倒排索引构建与维护策略研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:FollowMyHeart88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索系统中最核心的数据结构是倒排索引。随着信息化水平的不断提高,索引数据也越来越庞大,必须保存在辅助存储器中。目前常用的辅存设备是磁盘,磁盘虽然具有容量大、便宜等优点,但受制于其机械特性,磁盘与CPU和内存之间速度差距愈发明显,造成了信息检索系统的I/O瓶颈问题。另一方面,基于闪存的固态硬盘(Solid State Drivers,简称SSD)成为了存储领域的一个研究热点。与传统的机械式硬盘相比,SSD最显著的优点是读写速率高。对信息检索系统而言,使用SSD代替磁盘来存储倒排索引数据,可以极大地提高系统的整体性能。但是现有的倒排索引管理策略都是基于磁盘的,SSD却具有许多与磁盘显著不同的特性,若直接使用不仅无法充分利用SSD的优点,还会减少其使用寿命。首先,通过实验详细分析了现有索引策略在SSD上的缺点和不足之处,从中发现基于原地更新思想的索引管理方法随机写操作过多、性能较差;而另一类基于合并更新思想的方法写入SSD的数据量过大,给SSD带来额外的损耗。这些问题都是由于没有充分考虑SSD的特性所造成的。因此,根据实验分析的结果,提出沿用合并更新的思想,但需要进行改进从而减少其额外写入的技术路线。然后,分别提出了基于SSD的倒排索引的构建与更新策略:基于分块存储的索引构建策略与基于混合式合并的索引维护策略。基于分块存储的索引构建策略将待写入SSD的内存索引按术语预先分块存储,然后对产生的临时索引块只进行部分合并操作。基于混合式合并的索引维护策略不仅避免了对SSD有伤害的随机写操作,而且将术语按记录列表数据的规模分为两类,并对两类术语应用不同的基于合并更新的管理策略。最后,通过对比实验对上述索引构建与维护策略进行了性能评估。结果表明上述两种策略不仅维持了高效的索引读写,同时大幅减少了针对SSD的写操作的数量,减少了对SSD的损耗。因此与传统方法相比,新策略能够更好地适用于SSD。
其他文献
变更影响分析可以识别软件变更对系统的潜在影响,在软件维护中扮演了一个重要的角色。本文提出了一种基于多粒度依赖关系图的变更影响分析方法。所做的工作如下:提出一种面向
Internet的迅猛发展在给人们带来便捷与高效的同时,也导致了网络的安全性受到严重威胁。而公钥密码学技术正是在这种背景下产生的,它是保证信息在传输过程中得到保密的一种有
随着Web服务相关标准的不断完善以及面向服务的体系架构的发展,基于Web服务构建信息系统的方式已经为工业界所广泛接受并实施。另一方面,学术界也一直对服务的发现、推荐和组
伴随移动互联网的高速发展,社会生活对嵌入式系统功能的要求越来越高,嵌入式系统的软件规模日益扩大,软件复杂度不断增强,传统的嵌入式系统软件开发模式已经跟不上嵌入式设备更新
嵌入式产品越来越广泛的被人们使用,图形用户界面作为人们对产品的第一印象在嵌入式开发中的地位也越来越重要。传统的二维图形界面能够在功能上满足人们的需求,但是相对于生动
近年来,伴随着社交网络、移动互联网和物联网等技术领域的迅猛发展,数据量呈现爆炸式的增长。在这些领域中,通常需要实时地、高效地处理快速变化的海量数据。目前,针对数据流的实
随着计算机视觉传感器技术的快速发展,计算机视觉开始渗透到医学、城市交通、视频监控、机器人视觉等领域。传统窄视角的普通摄像头已经不能满足场景信息宏观层次的分析需求,而
现实生活中的很多决策问题都要考虑同时优化若干个目标,而这些目标之间往往是彼此冲突的,多目标优化算法就是要从所有可能的方案中找到最合理、最可靠的解决方案。其主要面临
数据库自然语言查询界面(NLIDBs)是指允许用户用自然语言访问数据库的一种方式,它的出现大大简化了人机交互的过程。它是多学科交叉的产物,涉及自然语言理解、数据库技术、人工智