Top-k文档检索算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:maomao147
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了Top-k文档检索问题,即对给定的文档集D={d1,d2…,dn},对D构建索引,通过相关的打分函数给每个文档进行打分,使得对任意给定的模式P,返回文档集中与该模式最相关的前k个文档。在自然语言文本中,该问题主要以倒排索引为检索模型,它将“tf-idf”做为打分函数,根据得分检索出与查询关键字最匹配的多个文档。但是,由于倒排索引要求所处理的文档具有良好的分词特性,即词与词之间具有明显的分隔符,因此对于无结构的流式文档,比如DNA序列,音乐序列等,倒排索引无法适用。将文档看做连续的符号序列,通过在符号序列上构建全文索引结构,本文实现了在任意类型文档上的Top-k检索,同时还支持任意子串的检索。本文的工作是基于已有经典的Top-k文档检索框架,实现并改进了该框架,具体如下:首先,本文提出了适用于Top-k文档检索的广义后缀树的新的构造方法。相比于已有的需要将每个文档采用不同的分隔符连接成一个字符串的构造方法,我们只用一个分隔符连接文档,就能够构建广义后缀树。这样,我们的构造方法不仅能够适用于大字符集,并且需要更少的存储空间。其次,本文提出了Top-k文档检索中新的N-strcuture初始化方法。通过自底向上地规约N-structure,避免了原框架中需要对每个文档单独构造后缀树这一步骤,降低了所需空间。最后,在文档检索阶段,本文结合了简明有序树,提高了查询效率。通过在简明有序树上的rank/select操作,我们可以在O(1)时间得到树中任意内部结点的最右孩子叶结点,从而快速得到相应的检索区间。实验结果表明,相比于经典的检索方法,我们的方法查询效率提升了2-3数量级,可以在微秒时间内完成对模式的检索。我们的工程化的代码可以在https://github.com/Hongweihuo-Lab/Top-k-document-retrieval处获取。
其他文献
随着计算机及互联网技术的发展,人们的生活同信息安全联系得日趋密切。信息安全技术的应用已涉及到了社会的各行各业。在电子商务、电子政务、网上银行和网购平台逐渐成为社
无线通信的迅猛发展使得消费者对高品质、大容量通信的需求越来越紧迫,而现有的通信体制以及紧缺的频谱资源已很难解决上述问题。多输入多输出(Multi-input and Multi-output
Hilbert空间中框架的概念是由Schaeffer和Duffin两位数学家在1952年研究非调和Fourier级数时首次提出的.Hilbert空间中的框架是具有类似于基的性质的一个冗余向量组.在信号处
腈类化合物是有机合成中一类重要的中间体,可以作为合成胺、酰胺、酮、羧酸和酯等化合物的原料。此外,腈类合物在生物医药、农药、功能材料和香料等领域也有广泛的应用。腈类
随着计算机科学技术的不断进步,人们对计算机应用的需求日益迫切,进而对软件的质量提出更高的要求和期望。如何有效的管理内存,防止泄漏成为突出的问题。内存泄漏是一种常见
网络视频监控作为计算机视觉领域的研究热点,被广泛应用于公共安全、智能交通等领域。行人再识别是网络监控系统的核心任务,研究其相关的算法与技术具有重要的学术意义和巨大
随着房地产相关经济活动越来越频繁,对房地产估价的需求也随之增大,对房地产价值的精确衡量已成为一个令人关注的话题。而目前市场上使用较多的三种传统估价方法市场法、成本
一维空心纳米复合材料具有比表面积大、孔隙率高、扩散距离短等独特的性质,在染料废水处理、蛋白吸附和锂离子电池等领域表现出广阔的研究空间和良好的应用前景。然而,一维空
形选系统是一种物料自动分选系统,依据物料的形状特性,对同种物料进行分类挑选,并且分选速度快,精度高,能够有效的提高物料分选的效率。分选系统的种类繁多,但是一般都仅仅针
类胡萝卜素是存在于生物体中的一种十分重要的色素。它不仅是光合作用的捕光色素和光保护色素,还是脱落酸和独脚金素等植物激素的合成前体,对植物的生长发育至关重要;人类和