一种运用上下文有关文法进行倒排索引压缩的方法

来源 :第 23 届全国信息存储技术学术会议 | 被引量 : 0次 | 上传用户:leeannie222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  现代互联网搜索引擎普遍使用倒排索引作为存储网页信息的核心数据结构,借助倒排索,引搜索引擎能够高效存储预先抓取好网页信息,从而快速响应用户的查询.随着互联网规模的爆炸式扩张,需要存储的信息量迅速增长,针对倒排索引的压缩工作也随之变得越来越重要.传统的倒排索引压缩方法主要基于算术编码理论,虽然这些方法在压缩倒排索引上取得了一定的效果,但是它们并不能很好的应对倒排索引规模日益增大的挑战.因此,提出新的压缩倒排索引的方法具有很大的意义.文法压缩理论可以充分挖掘倒排索引中的重复信息并且进行高效的表示,并且具备一定的通用性,是一种很有潜力的压缩方法.本文主要借鉴一种以"上下文无关文法"作为理论核心的压缩方法.一方面,这种方法可以把原始的倒排索引转化为"上下文无关文法形式的倒排索引",从而可以在进一步进行算术压缩后达到更高的压缩率.另一方面,为了在提升压缩性能的同时尽可能的不损失查询性能,这种方法探讨了如何存储"上下文无关文法形式的倒排索引",从而可以在压缩后的倒排索引上直接进行查询,以便最大程度的减少需要解压的内容.本文主要探讨如何使用"上下文有关文法"对倒排索引进行压缩.本文提出的压缩方法先将原始的倒排索引转化为"上下文有关文法形式的倒排索引",然后再对转化后的倒排索引进行算术压缩.一方面,上下文有关文法是一种比上下文无关文法表示能力更强的形式文法.在利用上下文无关文法进行压缩时,文本中的重复信息被挖掘为非终结符进行存储,一个非终结符只能代表一种特定的重复信息.而利用上下文有关文法,一个非终结符可以结合不同的上下文代表多种不同的重复信息,从而可以进行更充分的挖掘以达到更好的压缩率.另一方面,本文结合上下文有关文法和倒排索引的特点,对原始的倒排索引采用了d-gap预处理,以提升倒排索引的重复率,并减小文档号数值,使得文法挖掘和算术压缩更为有效.如何在提升压缩率的同时保障查询效率是一个重要的问题.本文通过设计存储"上下文有关文法形式的倒排索引"的方法,达到了在压缩后的倒排索引上直接进行查询的效果.同时,本文也设计了相应数据结构,使得通过上下文可以快速检索出非终结符所对应的信息,从而最小程度的减小由于提升压缩率而带来的性能损失.此外,本文还提出了裁剪策略,以提升压缩方法的灵活性,以适应更多不同特点的倒排索引.本文在Gov2数据集上进行了实验和评测工作.利用算术压缩方法,以上下文无关文法为核心的压缩方法以及本文算法的压缩方法分别对12G左右的倒排索引进行了压缩.实验表明,文法压缩方法普遍优于算术压缩方法.以上下文无关文法为核心的压缩方法可以将排索引部分压缩到1.5G左右,而使用本文的方法可以使得倒排索引部分所占用的空间进一步减小到1G左右.
其他文献
  目前工业上环己烷氧化存在反应条件苛刻,转化率低,选择性低和过量氧化副产物等问题,开发低成本的高活性催化剂具有重要前景[1].三氧化钨具有较高的价带电势,空穴氧化能力
  CdS在众多的候选材料中具有良好的可见光响应、合适的带隙和优异的光电特性的优势,但是其严重的光腐蚀和快速的电荷复合速率极大限制了它的应用[1].将CdS与其他能带结构
会议
  随着全球数据的快速增长,大规模数据的产生对存储设备的存储密度提出了严峻考验.磁盘存储技术由于存储密度高,价格便宜,是大数据存储的一种非常重要的存储介质.但是目前
  随着存储系统规模和复杂性的不断增长,传统的冗余机制难以提供足够的可靠性,构建高可靠性的存储系统成为了巨大的挑战.目前绝大部分磁盘都支持SMART技术,即磁盘自我检测
  现在,分布式存储系统存储数PB字节的数据变得越来越常见。这些系统不得不忍受由软件失效,硬件损坏和机器重启等引起的各种不同的系统故障。为了保证系统可靠性和数据完整
  近年来,各行业所产出的数据量增速提升,对数据的存储和查询的需求急剧增加,对承担海量数据存取任务的数据库管理系统进行优化的需求也从未减小.在这种背景下人们注意到,
  固态硬盘(Solid State Drives,SSD),具有读写速度快、防震抗摔、低功耗、无噪音、工作温度范围大、轻便、体积小、经久耐用等多种优点;另一方面,在读写接口规范和定义上,S
  近年来基于GPU的并行技术发展迅猛,许多计算量很大的应用通过GPU并行计算获得了近百倍的加速比。然而,GPU的异构并行在内存管理方面面临着诸多问题。首先,GPU端显存的分
  计算机图形学的一个主要目标是为设计和模拟真 实或者想象的物体提供便捷的工具,而对于这些工 具的建立,物体功能性分析和理解是至关重要的。 由于大多数人造物体都是为了
会议