基于自动机的正则表达式匹配算法

来源 :东北大学 | 被引量 : 0次 | 上传用户:wain155
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学的不断发展,信息数据量呈爆炸性增长,给数据处理工作带来了一定的挑战,用户的查询也变的越来越复杂。由于需要处理的数据规模越来越大,进行的搜索也越来越困难,正则表达式作为一种可定义复杂查询的强有力工具为处理文本搜索问题提供了一种灵活而又高效的方法。如今,正则表达式的应用已经涉及到很多领域,为查询处理提供了方便。如何快速高效地响应正则表达式查询也变得至关重要。目前,已提出了很多解决正则表达式匹配的方法。这些方法基本上都是对正则表达式进行在线搜索,即预先没有对要查询的文本做任何处理,根据其匹配的原理大致可分为三种:基于NFA的正则表达式匹配;基于DFA的正则表达式匹配;基于过滤方法的正则表达式匹配。其中,基于过滤方法的正则表达式匹配方法目前使用的比较多,查询性能较高,但是现有的过滤方法只是针对某些结构的正则表达式效果较明显,而正则表达式本身的结构非常复杂,如何选择一种更优的过滤方法来满足正则表达式的查询需求整体提高正则表达式的查询性能是一项很具挑战性的工作。本文根据正则表达式的特点,针对数据文件是否预先被处理这两种情况,提出了相应的正则表达式在线与离线查询处理技术。在未索引数据文件的情况下,从正则表达式中提取出可以很好地代表该表达式的最佳因子集合,然后根据最佳因子的个数来选择使用单字符串查询的BM算法或多字符串查询的CW算法在数据文件中找到包含最佳因子的候选字符串,最后在DFA上对候选字符串进行验证。在索引数据文件的情况下,本文提出了三种索引结构,基于基本后缀树的索引、基于扩展后缀树的索引和基于聚类的索引。基于后缀树索引的方法是在后缀树上查找有最佳因子出现的字符串集合,再对其验证。基于聚类索引的方法是先使用聚类方法对字符串集合进行聚类,从每个类提取出公共子串,根据类中的公共子串是否被DFA所识别来进行过滤。最后,在基于真实与模拟数据集上的大量实验测试结果表明,本文所提出的在线和离线处理技术能够高效地支持正则表达式查询处理。
其他文献
近年来,基于统计的方法在机器翻译领域内越来越占据到主导地位,多种基于统计方法的机器翻译系统相继出现,如基于短语、基于层次型短语、基于句法等等。而对于机器翻译系统,语
本文以建立在统计理论基础上的Bayse分类算法在短信过滤中的应用策略为依据,把投诉平台中针对不良短信的投诉信息作为研究对象,对它们进行智能化的分析与研究,用类别明确的投
随着信息技术的发展,企业的数据资源呈爆炸式的增长,传统的企业竞争情报系统在数据分析处理中的不足日渐突出。数据挖掘技术的兴起为竞争情报系统的发展提供了新的动力。模糊聚
TCP/IP网络的成熟性、可扩展性和廉价性使得存储系统和TCP/IP网络的融合成为对中小型存储系统最有吸引力的方案之一。iSCSI(internet Small Computer System Interface)是由I
随着互联网与信息化技术的迅速发展,社会网络已逐渐引起人们的高度注意。通过对社会网络的研究,人们可以理解社会现象,预测人类行为,为社会结构的分析提供了极大地便利。但随
在网络舆情管理、互联网智能信息处理中,人们急需获取论坛中帖子内容,为进一步研究话题情感分析以及论坛话题传播服务。面对着海量的论坛信息,快速提取论坛中帖子内容可以及
缓存是计算机系统的关键部件,利用存取局域性提升I/O性能。目前通用的缓存替换算法仅以缺失率作为评判标准,忽略下层存储设备的特性。然而在固态硬盘和磁盘组成的磁电混合存
由于当今印刷技术的不断进步,利用伪造的印刷品进行的非法活动也变得更为容易和难以抑制。为了实现对印刷品图文的防伪、鉴别与跟踪,针对印刷品的数字水印成为了信息隐藏领域中
固态盘(Solid State Disk,SSD)相比传统机械硬盘在读写延迟、带宽、功耗、可靠性等方面都有很大提升,在目前的存储系统中应用越来越广泛。为了获得更大的容量,降低成本,提高
学位