论文部分内容阅读
计算机网络高速发展,在日常活动中变得越来越重要。特别是,计算机网络已经成为关键基础设施的一部分,对我们的社会和经济具有战略意义。这些发展导致了高度动态的网络利用,其中流量波动和看似随机和异常的流量模式通常表现出来并且难以检测。为了确保网络的保护和恢复,有必要对网络流量进行更好的观察和分析。因此,流量异常检测旨在发现和描述影响网络基础设施的关键异常,这些异常的来源可能是故意恶意的或无意的,例如攻击、故障、错误配置,或者合法但不正常的网络使用,例如突发访问。然而,虽然有大量的算法和技术研究网络流量异常的不同因素,但大多数研究通常集中在一个特定的方面或方法上,而对整体环境的研究却很少。本文旨在对网络异常检测领域的现状进行全面的分析,将流量异常检测问题分解为处理成本,诊断粒度,理论方法和流量特征四个维度。随后,对流量异常检测研究领域进行进一步的分析,分别讨论问题的各个组成部分,并结合多种统计分析、信息论等技术,从不同角度提出了多种流量异常检测方法,主要研究内容如下:首先,由弱关联数据产生的异常网络通信难以消除,为此,提出了一种基于特征分析的通信网络异常弱关联数据检测方法。该方法对传统方法的基本检测原理进行了更新,并通过使用关联规则来设置异常弱关联数据特征类型,以获得正常数据和异常数据之间更多的差异特征。使用Netflow系统对异常流量数据进行检测,统一数据格式,并根据粗粒度表示提取异常流量中异常弱关联数据特征。利用信息熵定义异常弱关联数据的标准信息熵。在不同时间段的分形维数中,对弱关联数据进行了检测,得到了异常检测结果。实验结果表明,该方法可以有效提高网络通信的自适应能力。其次,使用机器学习算法进行流量异常检测时,特征子集的选择非常重要;并且,在使用支持向量机(SVM)进行流量异常检测时,SVM算法的效率及其性能主要取决于内核类型及其参数。针对前面说明的问题,在使用SVM进行流量异常检测时,需要同时考虑特征选择和参数优化两方面的内容。因此,提出结合使用遗传算法进行优化的思想,在进行特征选择的同时,对SVM的参数进行优化操作。然而,当选择遗传算法进行优化问题的求解过程中,使用者往往需要设置一些参数,由于不同的遗传算子适用于不同的应用领域,因此参数调整是一项困难的任务。本文提出了一种遗传算子随机变化的遗传算法方案。所提出的方法旨在更密切地模仿大自然。在这种方法中,采用了非均匀交叉和选择技术。在生育“孩子”的数量取决于生育率的情况下,还使用了性别繁殖。此外,父母可以收养一个新的“孩子”。在搜索空间的探索和开发之间增加了年龄和死亡年龄。使用这些方法,可以有效地保持种群的多样性,提高遗传算法的性能。然后,提出将改进的自适应遗传算法和支持向量机相结合,利用改进的自适应遗传算法自适应的寻找最佳特征子集,并同时优化SVM模型的参数,以提高算法进行流量异常检测的效率。实验结果表明,所提方法在最小化所选特征数量的同时,最大化SVM在进行流量异常检测的精度。最后,K-Means聚类已被广泛研究并应用于流量异常检测问题,其性能受随机初始聚类中心的不同选择而影响异常检测和分类的效果。提出结合蚱蜢优化算法优化K-Means聚类的思想,将蚱蜢优化算法的最佳解决方案作为K-Means算法的初始点,大大提高了流量异常检测的全局搜索能力和局部搜索能力。实验结果表明了所提算法的有效性。