面向深度数据包检测的正则表达式匹配算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wuyi101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,网络应用层出不穷,各种攻击也日益猖獗,给网络信息安全带来了严重威胁。深度数据包检测(Deep Packet Inspection,DPI)是网络入侵检测与防御系统(Network Intrusion Detection/Prevention System,NIDS/NIPS)的核心,常用正则表达式来描述攻击规则的特征,不仅检查数据包的头部也检查数据包的有效载荷。正则表达式匹配(Regular Expression Matching,REM)是DPI的主要组成部分。传统的正则表达式匹配算法常采用非确定有限自动机(NondeterministicFinite Automaton,NFA)和确定有限自动机(DeterministicFinite Automaton,DFA)来实现。NFA存储空间需求小,但带宽需求大;而DFA带宽需求小,但存储空间大。因此构建时空高效的正则表达式匹配算法成为当前深度数据包检测的研究热点之一。为了对DFA的存储空间进行有效的压缩,本文提出一个简单新颖的基于行程累加长度压缩的正则表达式匹配算法(Run Accumulation Length Encoding DFA,RALE-DFA)。该算法引入正则表达式集的出现字符集对字母表进行压缩,并利用RALE算法对字母压缩迁移表进行进一步压缩,同时位图被用来加快匹配过程。实验结果表明,RALE-DFA算法有效的减少了DFA的存储空间开销。与原始DFA算法、CSDFA(Character Substitution DFA)算法和D2FA(DelayedInputDFA,D2FA)算法相比,RALE-DFA算法的存储空间开销分别减少了95.81%~98.56%、48.17%~73.34%和38.09%~76.15%。在某些情况下,正则表达式中包含长度限制子表达式会导致DFA状态爆炸,并使得DFA无法构建。为解决长度限制带来的问题,本文在计数自动机(CountingFA,Counting-FA)的基础上提出了跳跃计数自动机(Jump Counting FA,Jump-CFA)算法。该算法将长度限制部分与正则表达式相分离,并对长度限制部分实施跳跃和计数策略来减少DFA状态并且提高DFA匹配速度。实验结果表明,Jump-CFA算法有效的解决了长度限制问题;与传统的DFA算法和Counting-DFA算法相比,Jump-CFA算法的自动机状态数分别减少了73%~96%和5%~18%;Jump-CFA与Counting-FA相比匹配速度提高了2到10倍。
其他文献
随着互联网的发展以及移动互联网时代的到来,为了应对大数据下的业务需求,集群的规模也在日益的变大,与此同时分布式系统的自动化部署和自动化管理的问题日益突出。尽管现在
随着GPS定位、无线传感等技术的发展与运用,以及具有定位功能的无线手持、车载设备的普及,使得基于移动对象的位置服务被广泛使用。移动对象的位置等信息随时间发生变化,数据
近年来,微型博客(简称微博)越来越受到网络用户的青睐,成千上万的用户通过发布微博共享他们的观点和情感。其中,有大量带有情感倾向(认为某事物“好”或“坏”)的微博文本,这些微博文
统计技术是目前机器翻译研究的主流技术。统计机器翻译研究的先决条件是要有充足的双语平行语料库。翻译系统的性能与语料库规模是密不可分的。近年来,汉蒙机器翻译研究已取得
随着信息技术的飞速发展,在线考试系统已经广泛地应用于各个领域,这种考试形式不仅节约了大量的人力、物力资源,更增强考试的灵活性、公正性和高效性。   高等院校作为考试最
轮廓编组的目的是从输入中提取独立的目标轮廓,是一种以边缘片段为编组对象的知觉组织过程。由于轮廓能够很好地描述目标的几何特征和拓扑特征,并且表示具有很好的简洁性,因
中文短文本分类近年来随着国内移动互联网的快速发展和智能手机的普及成为一个新的研究热点。在电子取证领域,如何快速准确的从手机等设备的大量短信文本中提取出有用信息成为
随着科技的发展,计算机在人们的工作、生活中占据着越来越重要的作用。如果计算机能够拥有人类理解和表达情感的能力,并能够自主适应环境,将从根本上改变人机关系,提高人机交
随着Web2.0和社会媒体的快速发展,海量的图像和视频数据在互联网上涌现,这就给多媒体存储、索引和检索的相关研究带来巨大挑战。传统基于内容的图像检索(CBIR)技术利用图像视觉
学位