论文部分内容阅读
入侵检测作为一种主动的网络安全防护技术,在当今飞速发展的互联网中起着越来越重要的作用。如何从庞大的数据流量中快速检测到入侵行为,已成为入侵检测技术发展的核心方向。入侵检测的基本思路是通过对网络数据流量特征的分析,抽取数据特征,进而识别入侵行为。传统入侵检测大多采用统计学或利用算法抽取主要特征,建立分类模型的方法对入侵行为进行识别。此类方法存在识别率低、难以识别稀有入侵等问题。针对这一问题,本论文引入深度学习技术,建立能够主动学习的检测模型,提高检测精度,并适应对稀有入侵行为的识别。论文首先对入侵检测和深度学习的相关基本理论知识进行了介绍,然后重点研究基于深度学习的入侵检测的若干关键的问题。论文的主要工作包括:(1)针对流量数据的高维度问题,研究数据降维方法。入侵检测数据集进行数字化和归一化之后的标准化数据集特征维度高达122维,本文提出一种基于自编码器的入侵检测降维方法,将自编码器的思想引入入侵检测这一实际问题当中。实验结果表明这种方法能够在保证数据重构误差非常低的情况下提供输入数据和输出数据的一一映射。在此基础上论文提出一种对上述自编码器的深度结构寻优方法,这种算法以重构误差为衡量指标,逐层按照步长来调节自编码器的神经元数量,通过实验分析,当自编码器结构为122-90-80-30时,重构误差很低而且收敛速度快,稳定性高。此外,对于最优的网络结构,ReLU这种激活函数所表现出来的效果要优于其他两种激活函数。(2)针对入侵检测当中检测精度不够高、稀有攻击检测效率低的问题,本文结合上述自编码器降维方法,提出了两种入侵检测模型,分别为AE-DNN模型和AE-nSVM模型。AE-DNN模型将自编码器降维方法与深度神经网络DNN结合,将传统的全连接层与Dropout层进行组合来防止过拟合现象,使用mini-batch和Xavier初始化来加快收敛速度,使用随机梯度下降(SGD)的最优化方法来防止模型陷入局部极小值。在入侵检测数据集KDD CUP99的实验结果表明AE-DNN模型的准确率高达93.07%,误报率和漏报率均要优于其他模型;针对数据集各类型的数据分布不均匀,导致稀有攻击U2R和R2L的检测准确率较低,提出了 AE-nSVM模型,该模型利用4个SVM分类器优秀的二分类特性,先判断是否为稀有攻击,然后逐步进行分类,这种方法能够将U2R攻击的检测准确率提高将近一倍,R2L攻击的检测准确率也提高到43.2%。