论文部分内容阅读
入侵检测系统是网络安全体系的一个重要组成部分。按检测方法可将入侵检测系统分为误用入侵检测系统和异常入侵检测系统。异常入侵检测系统具有可检测目前未知的新类型攻击的能力,是入侵检测系统的重要组成部分和误用入侵检测系统的重要补充。 传统的有监督异常入侵检测要用不带攻击的纯净数据或已标明类型的有类标数据训练,以建立检测模型。这种方法存在可用性和可靠性方面的缺陷:在实际应用中,既没有纯净数据,也没有有类标数据;用人工分类的方法产生纯净数据或有类标数据非常昂贵、耗时,而且不能保证数据完全纯净或分类完全正确。为此,重点研究不需要纯净训练数据或有类标训练数据的异常入侵检测方法,即无监督异常入侵检测。所采用的方法主要是统计分析法和聚类法。 在统计分析法方面,提出了基于非纯净训练数据的异常入侵检测方法ADNTD(Anomaly Detection for Noisy Training Data)和ADNTD_I(ADNTD Improvement)。ADNTD以含有攻击的网络数据包作为数据源,所建立的检测模型是以数据包头部字段为属性的统计模型。由于训练数据集中正常数据包和攻击数据包的概率分布不同,因而它们所引入的属性值也具有不同的概率分布。ADNTD根据属性值的概率分布从非纯净训练数据建立网络的正常行为模型,并用该模型作为检测阶段的检测模型。ADNTD_I从所使用的数据源和检测模型建立方法两方面对ADNTD进行改进:ADNTD_I以含有攻击的网络连接记录作为数据源,建立检测模型所使用的属性既有网络连接数据包的头部字段,也包括应用层的数据;ADNTD_I的另一个特点是按网络连接的服务类型不同分别建立检测模型。 在聚类法方面,扩展了基于聚类的无监督异常入侵检测算法。在用聚类算法进行无监督异常入侵检测时,数据记录首先被映射为属性空间的点,然后用聚类算法找出处于属性空间稀疏区域的点,这些点所对应的数据记录就是入侵记录。用聚类法进行入侵检测的关键之一是属性映射方法和距离函数的定义。针对描述网络连接记录的属性既有数字属性,又有符号属性,为由这两种属性混合数据组成的记录提出了统一的距离计算框架,使两种属性所包含的信息都得到充分利用,不至于使一种属性所包含的信息被另一种属性所淹没;无监督异常检测中,由于数字属性间在值的大小、变化度等方面的差异,以及入侵记录所带来的离群值的影响,不能直接用欧氏距离函数计算数字属性间的距离,提出了一种适合无监督异常入侵检测的具有高健壮性的数字属性映射和距离计算方法;提出了一种频率相关的符号属性距离计算方法,符号属性值先被映射到属性空间,然后再计算距离,由于属性值的概率分布是符号属性非常重要的特征,并具有辨别正常记录和入侵记录的能力,因此距离值乘上与频率相关的权重系数能更好地区分不同的记录。在网络连接的入侵检测中,用这些方法计算记录间的距离,可以有效地将正常网络接连和来自攻击行为的网络连接区分开,从而实现无监督异常检测。 在聚类法方面的另一个研究内容是基于无监督聚类的在线异常检测。用Pearson相关系数计算记录与簇、簇与簇间符号属性的距离,该方法比较向量的相似性并计算符号属性量化的距离值,克服了许多研究中符号属性间距离只有两种值(0,或者是某个常数)的缺陷,提高了符号属性的分辨力。提出了一种新的簇异常度量—近似平均距离AAD(Approximate Average Distance)。AAD综合了一个簇的局部异常度,即簇的内部点密度,和该簇在整个簇结构中的全局异常度,即该簇与其它簇的距离。研究依据AAD对聚类后的簇分类,并以已分类簇结构作为检测模型进行在线异常检测。在线异常检测能实时地对每个记录分类,从而能及时发现入侵行为,减小由入侵造成的损失。 用DARPA1999和KDD99数据集进行的性能测试表明所提出的方法能有效地从网络数据中检测入侵。