论文部分内容阅读
入侵检测系统是继防火墙技术之后的新一代安全保护措施,它通过对计算机系统或网络关键节点信息的采集、分析,从中发现与正常模式不同的异常行为,及时发出警报并处理。传统的入侵检测算法主要是基于监督学习和无监督学习的。基于监督学习的入侵检测算法虽然检测率高,但训练样本难以获取,训练集的建立依赖于安全领域专家,代价较高;基于无监督学习的入侵检测算法虽然不需要建立训练集,但检测率明显低于有监督的入侵检测算法。实际上,网络中不仅存在着大量无标签的数据,同时也存在一些带标签的数据,利用这部分带标签数据进行基于半监督学习的入侵检测,可以充分学习带标签数据含有的信息,提升检测算法的精度。在利用聚类的方法进行半监督入侵检测时,算法通常需要设置聚类个数,这个参数的选取非常困难,一般只能依赖大量的实验以及用户在实验过程中的经验。自然邻居是一种新的邻居概念,自然邻居的搜索不需要设置任何参数,完全由算法自适应产生,它完美的解决了参数设置的问题。本文结合了半监督学习和自然邻居概念,提出了一种基于自然邻居的半监督入侵检测算法(SID2N),算法首先对带标签数据按攻击类型分别做基于自然邻居的聚类,然后求出每个簇的簇中心作为分类器的样本,再对无标签数据做基于自然邻居的分类。算法的优势在于,不仅充分学习了网络中可获得的带标签数据的信息,而且不需要提供参数,算法完全是自适应的。本文从KDD CUP99的Corrected数据集中选取19999条记录作为实验数据集,首先对数据集进行了数值化、标准化和归一化,根据SPSS分析结果和属性的信息增益,从41个属性特征中选取了15个相关度最大的特征,然后对数据集的部分数据进行了标记,将基于自然邻居的半监督入侵检测算法的结果和SAID半监督入侵检测算法的结果做比较,实验证明,基于自然邻居的半监督入侵检测算法无论在检测率、误报率还是漏警率上都有优势,验证了算法的有效性;然后改变带标签数据的比例,分别对数据集的1/5数据、1/4数据和1/3数据做标记,用基于自然邻居的半监督入侵检测算法进行检测,结果显示,检测率、误报率、漏警率和检测精度的变化都不明显,验证了算法的稳定性。