全文自索引压缩算法的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:zaodt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,网络信息爆炸式地增长,繁杂的文本数据带给人们便利的同时,也给文本检索带来巨大的挑战。倒排索引技术虽然能解决部分需求,但当分词不准确或者无法进行分词时,就会导致检索的精准度出现问题。全文自索引算法不是以“词”的粒度来分割文本,而是以文本的单个符号进行分割,可以解决精准匹配的问题。全文自索引所占有的空间是原文本所占空间的4~20倍,造成非常大的空间浪费,所以全文自索引压缩算法对全文检索有着重要的意义。本文研究了后缀数组、rank/select/access操作、BWT数据轮转算法、小波树和整数编码压缩算法,在此基础上设计高效的全文自索引压缩算法,主要工作如下:(1)本文在Sad-CSA算法的基础上,利用其上下文划分的理念,保存一层上下文结构,提出了 PEF-CSA自索引压缩算法。该算法利用Partitioned-Elias-Fano编码压缩算法对后缀数组转化而成的间断单调递增的近邻数组φ进行压缩,并采用二级压缩结构得到良好的压缩效果和查询性能。(2)本文在原始FM-Index算法基础上提出了 Adaptive-FM-Index自索引压缩算法。将原文本T经过BWT数据轮转得到Tbwt,利用Huffman小波树结构存储Tbwt,得到HWT(Tbwt),将HWT(Tbwt)每个节点存储的bit串划分得到超块与块的两级结构,提升了查询的速度,并且根据块的数据分布特点,选取自适应的编码方式,提升了压缩性能,结合采样后缀数组与采样名次数组的辅助结构提供高效的自索引结构。(3)本文实现了 PEF-CSA自索引压缩算法和Sad-CSA压缩算法、RL-CSA压缩算法、SDSL-CSA算法。实验表明,PEF-CSA自索引压缩算法的压缩率和计数查询性能是CSA算法中最优的,定位查询性能也高于大多数CSA算法。实现了Adaptive-FM-Index 自索引压缩算法,并且实现了 FM-RRR 算法、FM-uncompressed算法、FM-hybrid算法、RLFM算法。实验表明,Adaptive-FM-Index自索引压缩算法的压缩率,计数查询性能与定位查询性能都普遍好于其他FM-Index算法,并且在字符频率失衡的数据集上压缩效果更好。Adaptive-FM-Index自索引压缩算法压缩率优于PEF-CSA自索引压缩算法,但在english类的平衡数据集上,PEF-CSA自索引压缩算法的压缩率更低,PEF-CSA自索引压缩算法的定位查询性能优于Adaptive-FM-Index自索引压缩算法。
其他文献
<正>便秘是老年人的常见病症,会严重影响老年人的健康和生活质量,给病人带来很大的痛苦。近年来我们对伴发老年性便秘症状的患者在治疗原发病的基础上,辅以情志护理、饮食指
目的:探讨基于移动终端的信息化健康教育模式在膝关节置换术患者康复治疗中的应用效果。方法:将2016年6月1日~2017年5月31日60例膝关节置换术患者设为对照组,采用常规健康教
本文以《带电粒子在电磁场中运动问题探究》为例,详细分析了高三物理复习课的问题探究应做的前期准备,如何开展探究过程,在探究过程中的注意事项。
中国农村经历了历史上力度最大的学校布局结构调整和基本普及学前教育,农村的村庄学校消失,村庄幼儿园兴起,农村幼儿园成了农村社会的文化高地。当前,农村学前教育治理存在治
白居易研究历来为日本汉学界研究所重视,尤其是20世纪80年代后,白居易"独善"这一层面,成为新的研究热点,体现其"独善"精神的"闲适诗"研究成果有了丰厚的积累,与此同时,国内学
有时候好的建筑就如同可口的菜品一样让人难以忘怀,不同的建筑都有着自己独特的味道,不一样的人,不一样的心情也有着不同的感悟。玛丽亚别墅和萨伏伊别墅、流水别墅这三座现