不确定字符串的匹配方法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:tdcdc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给定一个文本串T和模式串P,字符串匹配就是从一个T中找到所有和P相同的子串。字符串匹配的应用涉及到生物信息学、文本编辑、模式识别、自然语言处理和搜索引擎等领域。随着互联网技术的发展,数据来源的差异性导致了不确定数据的产生。本文重点研究生物信息学领域的不确定字符串匹配问题,研究内容如下。首先,通过对现有方法进行深入分析,发现了现有方法存在索引构建时间长,索引规模大的问题。其次,针对生物信息学领域中字符种类较少的特点,提出了空间代价为字符种类乘字符串长度的索引USAL。在USAL上提出了积极字符和消极字符的概念,基于积极字符并结合贪心思想和范围最值查询RMQ提出了一种高效的字符串匹配算法GUSM。USAL在每个位置记录了每种字符的出现概率,字符串匹配时,根据给定的查询概率阈值用RMQ以O(1)时间返回当前划分区间中概率最大的积极字符位置,然后对该位置进行概率阈值的验证,最后返回正确的结果。为了提高积极字符位置的过滤效果,提出了基于最小概率字符和随机选择字符的过滤策略。再次,为了进一步增强字符串匹配阶段的过滤效果,结合Bitmap思想提出了一种小规模位图索引BI。BI可以对USAL上的位置概率进行位映射,基于BI提出了一种高效字符串匹配算法BUSM,字符串匹配时,将子串匹配操作转化为BI上的位操作,然后验证候选结果集合,最后返回正确的结果。为了提高BUSM在概率阈值验证阶段的效率,提出了多维位图索引MBI,通过减少候选结果集合的规模,从而提高了算法执行效率。最后,对于多个不同特征的真实数据集和人工合成数据集进行实验,验证了本文提出算法的高效性。
其他文献
随着科学技术的快速发展,控制领域中复杂控制环境对控制系统的性能要求越来越高,处理中心需要执行更加复杂的处理任务表,处理系统中大量的数据流。由于功耗和散热问题,通过增
随着云计算技术的发展,作为其核心基础设施——数据中心,已成为制约云计算技术快速发展的重要因素,从而引起世界各国研究机构和研究者的广泛关注。传统的数据中心网络结构主
随着互联网信息技术的迅猛发展,门户新闻网站、各类新闻媒体平台和搜索引擎构成的在线多源媒体已然成为了描述各类话题的重要载体。话题在大规模在线多源媒体中呈现的演化过
半导体光催化技术作为一种高效、安全的环境净化技术,已广泛应用于水中污染物的降解、水分解及二氧化碳还原等领域,在治理环境污染和解决能源危机方面有很大的应用前景。石墨
随着云计算时代的到来,云端存储的数据急剧增长,因此云存储系统已经成为云计算中的一个关键要素。云存储中的海量数据,使得云存储系统必须面对一个问题:如何在保证数据的有效
随着互联网通信的发展,移动终端迅速普及,无线网络虚拟化应运而生,为下一代无线网络提供高效定制化的服务。移动终端业务请求的数量与种类不断扩大与丰富,使得无线资源和能量
本研究对184个的农村学生发放问卷、对典型案例进行访谈,通过对有效问卷的定性与定量分析,分析影响农村学生职业发展的相关因素,实证教育对农村学生职业发展的作用和影响,分
图像盲复原是指在点扩散函数未知或者已知部分信息的情况下,从观察到的退化图像中恢复出清晰原始图像,是一个病态逆问题的求解。在计算机视觉领域,去除图像模糊是一个具有挑
对于大数据处理平台而言,存储系统的设计对提高其性能至关重要。尽管研究人员已经提出了众多优化办法,但现有优化方法均根据系统设置,静态的为计算分配资源、对存储进行管理,
本文为一篇中译英翻译实践报告。本报告是根据作者所实习的公司提供的《机器人滚边技术概述》翻译项目进行分析与讨论。机器人滚边技术作为一项新型装配技术,极大促进了国内