论文部分内容阅读
随着互联网技术的不断发展,网络信息爆炸式地增长,繁杂的文本数据带给人们便利的同时,也给文本检索带来巨大的挑战。倒排索引技术虽然能解决部分需求,但当分词不准确或者无法进行分词时,就会导致检索的精准度出现问题。全文自索引算法不是以“词”的粒度来分割文本,而是以文本的单个符号进行分割,可以解决精准匹配的问题。全文自索引所占有的空间是原文本所占空间的4~20倍,造成非常大的空间浪费,所以全文自索引压缩算法对全文检索有着重要的意义。本文研究了后缀数组、rank/select/access操作、BWT数据轮转算法、小波树和整数编码压缩算法,在此基础上设计高效的全文自索引压缩算法,主要工作如下:(1)本文在Sad-CSA算法的基础上,利用其上下文划分的理念,保存一层上下文结构,提出了 PEF-CSA自索引压缩算法。该算法利用Partitioned-Elias-Fano编码压缩算法对后缀数组转化而成的间断单调递增的近邻数组φ进行压缩,并采用二级压缩结构得到良好的压缩效果和查询性能。(2)本文在原始FM-Index算法基础上提出了 Adaptive-FM-Index自索引压缩算法。将原文本T经过BWT数据轮转得到Tbwt,利用Huffman小波树结构存储Tbwt,得到HWT(Tbwt),将HWT(Tbwt)每个节点存储的bit串划分得到超块与块的两级结构,提升了查询的速度,并且根据块的数据分布特点,选取自适应的编码方式,提升了压缩性能,结合采样后缀数组与采样名次数组的辅助结构提供高效的自索引结构。(3)本文实现了 PEF-CSA自索引压缩算法和Sad-CSA压缩算法、RL-CSA压缩算法、SDSL-CSA算法。实验表明,PEF-CSA自索引压缩算法的压缩率和计数查询性能是CSA算法中最优的,定位查询性能也高于大多数CSA算法。实现了Adaptive-FM-Index 自索引压缩算法,并且实现了 FM-RRR 算法、FM-uncompressed算法、FM-hybrid算法、RLFM算法。实验表明,Adaptive-FM-Index自索引压缩算法的压缩率,计数查询性能与定位查询性能都普遍好于其他FM-Index算法,并且在字符频率失衡的数据集上压缩效果更好。Adaptive-FM-Index自索引压缩算法压缩率优于PEF-CSA自索引压缩算法,但在english类的平衡数据集上,PEF-CSA自索引压缩算法的压缩率更低,PEF-CSA自索引压缩算法的定位查询性能优于Adaptive-FM-Index自索引压缩算法。