论文部分内容阅读
随着信息技术和数据库技术的迅猛发展,人们能够获取的数据也与日俱增,对数据的加工处理已经成为人们获取有用信息不可缺少的工具。数据挖掘是一种通用的知识发现技术,利用各种分析工具在大量数据中发现模型和数据间的关系的过程。聚类分析是数据挖掘技术中重要的组成部分,数据聚类挖掘技术是一个正在蓬勃发展的领域,涉及了人们生活的各个方面。模糊聚类FCM(Fuzzy c-means)算法是的一种重要的无监督学习的数据聚类挖掘方法,已成为聚类分析技术研究的热点。该算法具有结构简单、局部搜索能力强且收敛速度快的特点,然而FCM算法容易受聚类初始化的影响,而且在迭代时非常容易陷入局部极小。遗传算法是一种随机搜索的全局优化算法,它通过模拟自然进化过程对最优解进行搜索,其显著的特点是具有并行性及对搜索范围的全局性。如果将FCM算法和遗传算法相结合,用遗传算法来解决聚类问题,既能发挥遗传算法的全局寻优能力,又能兼顾FCM算法的局部搜索能力,从而大大提高算法的性能。本文提出了一种基于改进遗传算法的模糊聚类算法(IG-FCM),该算法首先采用遗传算法的全局搜索特性对初始聚类中心进行全局优化,接着运用FCM算法的局部寻优特性进一步的最优解搜索。IG-FCM算法采用了一种启发式聚类的方法,通过有序改变聚类类别数目,利用聚类有效性评价函数自动确定最优聚类数目及最优聚类结果。由于采用传统遗传算法进行聚类会出现算法收敛速度慢,以及稳定性不高、精准性低等问题,本文改进的遗传算法采取最优保存策略来保留当前种群中适应度最高的个体,让其副本及其他个体进行最大适应度差异交叉操作,确保遗传算法优良基因迭代的稳定性,避免不良基因的扩散,提高了算法的收敛速度和精确度。本文在IG-FCM聚类算法研究的基础上,针对现有的入侵检测系统检测性能的不足以及聚类算法在入侵检测系统中应用的特点,提出了基于改进遗传算法的特征加权模糊聚类算法(IG-WFCM)算法,将该算法用于入侵检测系统中训练数据集的聚类划分,以此为依据来检测网络数据是否正常。基于IG-WFCM算法的入侵检测系统采用将连续型属性和离散型属性分别处理的数据预处理方式,数据之间相似性度量采用加权的混合距离度量方式,并且采用设定正常数据类集聚类宽度阈值的方法来检测异常数据,以此来提高入侵检测系统的检测率。本文通过采用KDD CUP 1999入侵检测数据集进行了仿真实验,结果显示IG-WFCM算法的平均检测率达到了80.1%,平均误警率保持为1.605%左右。这充分表明IG-WFCM算法的可行性和有效性,能够克服FCM算法易陷入局部极小值、检测精度低等缺陷,在一定程度上提高了入侵检测系统的性能和效率。