基于编辑距离字符串Top-k相似性搜索算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:HZ8081
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串相似性搜索在众多的领域具有广泛的应用,例如:数据清洗、数据集成、拼写检查、抄袭检测、生物序列分析等。到目前为止,有很多度量标准用来衡量字符串之间的相似程度,然而众所周知不存在一个相似性函数在所有领域中都具有最好的性质,编辑距离是所有被广泛接受的相似性函数中的一个。因此本文通过编辑距离表示两个字符串之间的相似程度。一般而言,字符串相似性搜索主要有两种类型:范围查询和Top-k相似性搜索,本文主要研究Top-k搜索问题,即给定一个查询字符串q,Top-k搜索返回字符串集合S中k个字符串,满足这k个字符串和查询字符串q的编辑距离最小。现如今解决字符串Top-k相似性搜索共有三类算法,AQ和Appgram基于n-gram模型,但这两种方法忽略了n-gram的位置信息,同时AQ算法需要对不同长度n-gram建立多个索引导致很低的效率,Appgram不是精确查询,往往会丢失结果,Bedtree算法基于B+树结构,由于过滤条件过于宽松导致遍历过多节点,Range算法和Hstopk算法针对短字符串很有效,当处理长字符串集合时,为了提高查询性能,这两种算法需要很大的额外内存空间。针对现如今方法的缺陷,本文基于n-gram模型,结合n-gram位置信息,设计了新的倒排索引结构,在这个新的索引结构上设计了新的顺序搜索和改进的循环搜索算法;在过滤阶段,加入了长度过滤,数量过滤和位置过滤,同时加入了新的过滤方式频率过滤,实验证明频率过滤可以进一步过滤掉大量候选字符串;同时本文针对top-k查询的初始化进行了研究,结合字符串集合整体统计信息,将字符串集合分类,采用和查询字符串同一类的字符串进行初始化;最后设计了基于磁盘的索引构建和查询方法;最后本文在三个真实数据集上进行了多组对比实验验证本文提出算法的高效性,首先测试各种算法在这三个真实数据集上内存消耗,然后比较了各个算法查询性能,同时对索引的两种构建方式,两种搜索策略,堆的四种初始化算法进行了对比实验,然后对基于磁盘索引构建时间和查询性能进行了测试,最后对长度过滤策略和频率过滤策略进行了测试,通过多组实验证明了本文提出算法的高效性。
其他文献
人脸识别技术是计算机模式识别领域非常活跃的研究课题,而特征抽取是人脸识别中最基本的问题之一,因此能否抽取人脸图像有效的鉴别特征也成为人脸识别技术的关键问题。典型相
随着网络带宽的增加和高速局域网的普及,已有网络取证系统由于数据捕获和分析能力的不足造成大量信息丢失,削弱了证据的说服力和法律效力。深入研究网络取证相关技术,设计并
随着计算机的普及和数据库系统的巨大成功,各种数据库系统以前所未有的速度开发出来并在各行业得到广泛应用,使得事务处理变得更加准确、高效,积累的数据更是以指数级的速度
说话人识别属于生物认证技术的一种,是一种根据语音波形中反映说话人生理和行为特征的语音参数来识别说话人身份的技术。在生物认证技术领域中,说话人识别技术以其独特的方便
随着英特网的发展,人们越来越多的面临怎样有效地查找相关外语文件的问题。在互联网发展初期,网络内容以英文为主,上网用户也多来自美、英等发达国家,但此后,来自其他国家的
数字电视是目前最具发展前景的产业之一,我国也推出自己了的地面数字电视广播标准—DMB-TH。在这种形势下,各种针对DMB-TH的数字电视产品都被开发出来,便携式移动电视接收机
嵌入式软件的特殊性使得其开发过程比传统的通用计算机软件要复杂得多,而调试作为嵌入式系统开发中的关键环节,扮演着十分重要的角色。目前,国内在嵌入式调试技术方面所做的
数据挖掘是当前国际学术界一项前沿的研究课题,它融合了数据库、人工智能、机器学习、统计学、智能计算、认知科学等多个领域的知识,是数据库研究中很有应用价值的一个新方向
2012年12月13日,我国的月球探测器嫦娥二号在距地球约700万公里的深空,以10.73km/s的速度770m的最近距离成功飞掠4179小行星Toutatis,获得了最高分辨率优于3m的系列可见光图
碎片复原技术是计算机视觉、图像分析和模式识别等领域中的重要研究课题,它开辟了模式识别新的应用领域,具有广泛的实用价值,一直为国内外学者所关注。本文在研究传统角点提