论文部分内容阅读
随着信息网络在社会生产、生活中的持续深化,网络攻击造成的危害也急剧扩大。网络流量异常检测作为一种有效的网络攻击发现手段,能够从流量数据中识别出可疑流量,是当前网络空间安全领域的研究热点。而网络流量数据处理能够减少待检测数据数量、浓缩数据蕴含的信息量,从而提高网络流量异常检测的检测效率、精度。因此,本文针对网络流量数据处理与异常检测关键技术展开研究,主要工作如下:1、针对网络流量数据处理与异常检测采集流量数据的需求,基于NDIS(Network Driver Interface Specification)中间层驱动(Intermediate Driver)对流量数据采集方法进行设计与实现。首先对比分析了Windows系统一些典型的网络流量数据采集方法的优缺点,根据NDIS中间层驱动采集数据包效率高、不可旁路的特点,选择NDIS中间层驱动作为流量数据采集器;然后对传统的NDIS中间层驱动以及新型NDIS过滤驱动进行实现,并针对收发数据包不同过程,分别选用相应的处理服务对数据包进行采集、解析;最后对采集流量数据后提交数据过程进行设计,根据提交数据过程的特点对流量数据进行区分处理,解决数据提交、采集构成环路通信的问题,并设计使用第三方公开服务器和消息中间件两种方式解决提交数据过程中通信协调问题,以便后续对流量数据的处理与检测。2、为进一步提高聚合位向量(Aggregated Bit Vector,ABV)算法分类数据包的速度,该文提出一种面向连接的改进ABV(Improved Aggregated Bit Vector,IABV)算法。该算法利用同一连接包分类查找规则相对一致的特点,建立哈希表-规则库两级优化查找结构,首先通过哈希表查找包分类规则,若未命中继续从规则库中查找。利用连接时效性特点设计哈希表冲突处理机制,根据表项最近命中时间判断是否进行覆写更新,避免规则累积导致查找时间增加;然后对ABV算法各维度进行等分处理,为各等分区间建立数组索引,从而快速缩小向量查找范围,加快查找规则库速度;最后,将规则中前缀转化为范围降低辅助查找结构复杂度,以减少内存空间占用量并加快规则查找速度。实验结果表明,将规则中前缀转化为范围后能够有效提升算法性能,相同条件下IABV算法相比ABV算法时间性能有显著提高。3、为快速、准确地选取高质量的网络流量异常检测特征集,提出了一种混合器模式特征选择算法。首先为识别特征集中的冗余特征以减少特征数量降低计算量,提出一种冗余特征删除机制,将特征之间互信息与特征熵的比值定义为特征冗余度,删除特征集中冗余度超过阈值的特征;然后为准确度量每个特征对网络流量异常检测的影响,提出一种特征重要性评估机制,根据某个特征从特征集中删除前后特征集异常检测性能的变化度量该特征重要程度;最后根据特征重要程度对特征排序,选取异常检测准确率最高的前k个特征作为特征选择结果。实验结果表明所提特征选择算法能够在较短时间内选择出具有较好异常检测性能和较少特征数量的特征集。4、为提高细粒度网络流量异常检测准确率,提出一种基于特征选择的串并行相结合的网络流量异常检测方法。该方法提出异常流量粗粒度检测、异常流量类型细粒度检测两级结构,针对每类流量的特点分别选择最优特征集进行异常检测,以提高检测准确率。首先使用一个二分类器对网络流量进行粗粒度检测,以快速区分正常和异常流量;然后采用多个二分类器并行检测与单个多分类器检测相结合的方式识别异常流量所属类型,避免串行检测方式错误累积效应,在提高检测准确率的同时缩短检测时间;最后使用NSL-KDD数据集验证所提方法,结果表明该方法可以有效提高对各类流量的检测精准率、召回率。5、针对海量流量数据难以实时处理与检测的问题,引入Storm分布式处理平台对网络流量数据处理与异常检测原型系统进行设计与实现。该系统主要可以分为网络流量数据采集、特征提取以及异常检测三个模块。首先基于NDIS中间层驱动采集数据并利用包分类算法快速过滤数据包;其次通过一台公开服务器的协调将待检测流量数据提交至Storm平台上的流量特征提取任务拓扑,提取各流量特征构建特征向量;然后异常检测模块加载离线训练的检测模型以及特征选择算法选取的特征集,对特征向量进行异常检测;最后通过实验验证了原型系统的有效性。