论文部分内容阅读
支持向量机是自上世纪90年代提出的一种基于统计学习理论的机器学习算法,与传统统计学研究样本产生的规律或样本数目趋于无穷大时的渐进性能不同,它更注重研究样本本身所提供的信息,其解决问题的核心思想是利用核函数把样本空间中的问题映射到特征空间中去解决。作为结构风险最小化准则的具体实现,支持向量机方法具有全局最优、结构简单、推广能力强等优点。入侵检测实质上是一个模式识别问题,利用支持向量机进行建模,不仅可以解决在建立入侵检测模型时因无法收集所有入侵样本而导致的模型推广性能差的问题,而且可以提高入侵检测检测率,降低漏报率和误报率,提高入侵检测系统的实用性。本文详细研究了支持向量机理论和入侵检测理论,在此基础上作了如下工作:(1)将支持向量机应用于实时检测,需要支持向量具有很高的训练速度,为了提高它的训练速度,一种可行的方法是对训练数据进行采样,减少训练数据的规模。本文研究了当前已有的几种采样方法,在此基础上提出了相邻边界模型,并基于该模型来对训练数据进行采样,实验表明该模型在保证正确率的同时,大大地减少了训练的时间复杂度和空间复杂度。(2)针对入侵数据量大且日益增多的特点,本文基于相邻边界模型和空间划分的思想提出了一个SVM增量学习方法,并对该方法进行了详细描述和分析。(3)着重对SVMLight和SMO两个算法里的一些重要内容进行了研究,因为它们是本文实验用的SVM软件包LIBSVM的关键部分。(4)研究了入侵及其基于特权层的描述方法,接着对KDDCUP99入侵检测数据进行了详细的研究,在此基础上将原入侵数据格式转化为LIBSVM支持的数据格式,然后用改进后的LIBSVM对实验数据进行了各种入侵实验,并将实验结果与LIBSVM的实验结果及其他结果进行了比较分析。结果表明改进后的LIBSVM不仅对训练的时间和空间效率有很大的提高,而且有较高的检测率。