基于遗传算法的模糊聚类挖掘方法应用研究

来源 :中南林业科技大学 | 被引量 : 0次 | 上传用户:mrlee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和数据库技术的迅猛发展,人们能够获取的数据也与日俱增,对数据的加工处理已经成为人们获取有用信息不可缺少的工具。数据挖掘是一种通用的知识发现技术,利用各种分析工具在大量数据中发现模型和数据间的关系的过程。聚类分析是数据挖掘技术中重要的组成部分,数据聚类挖掘技术是一个正在蓬勃发展的领域,涉及了人们生活的各个方面。模糊聚类FCM(Fuzzy c-means)算法是的一种重要的无监督学习的数据聚类挖掘方法,已成为聚类分析技术研究的热点。该算法具有结构简单、局部搜索能力强且收敛速度快的特点,然而FCM算法容易受聚类初始化的影响,而且在迭代时非常容易陷入局部极小。遗传算法是一种随机搜索的全局优化算法,它通过模拟自然进化过程对最优解进行搜索,其显著的特点是具有并行性及对搜索范围的全局性。如果将FCM算法和遗传算法相结合,用遗传算法来解决聚类问题,既能发挥遗传算法的全局寻优能力,又能兼顾FCM算法的局部搜索能力,从而大大提高算法的性能。本文提出了一种基于改进遗传算法的模糊聚类算法(IG-FCM),该算法首先采用遗传算法的全局搜索特性对初始聚类中心进行全局优化,接着运用FCM算法的局部寻优特性进一步的最优解搜索。IG-FCM算法采用了一种启发式聚类的方法,通过有序改变聚类类别数目,利用聚类有效性评价函数自动确定最优聚类数目及最优聚类结果。由于采用传统遗传算法进行聚类会出现算法收敛速度慢,以及稳定性不高、精准性低等问题,本文改进的遗传算法采取最优保存策略来保留当前种群中适应度最高的个体,让其副本及其他个体进行最大适应度差异交叉操作,确保遗传算法优良基因迭代的稳定性,避免不良基因的扩散,提高了算法的收敛速度和精确度。本文在IG-FCM聚类算法研究的基础上,针对现有的入侵检测系统检测性能的不足以及聚类算法在入侵检测系统中应用的特点,提出了基于改进遗传算法的特征加权模糊聚类算法(IG-WFCM)算法,将该算法用于入侵检测系统中训练数据集的聚类划分,以此为依据来检测网络数据是否正常。基于IG-WFCM算法的入侵检测系统采用将连续型属性和离散型属性分别处理的数据预处理方式,数据之间相似性度量采用加权的混合距离度量方式,并且采用设定正常数据类集聚类宽度阈值的方法来检测异常数据,以此来提高入侵检测系统的检测率。本文通过采用KDD CUP 1999入侵检测数据集进行了仿真实验,结果显示IG-WFCM算法的平均检测率达到了80.1%,平均误警率保持为1.605%左右。这充分表明IG-WFCM算法的可行性和有效性,能够克服FCM算法易陷入局部极小值、检测精度低等缺陷,在一定程度上提高了入侵检测系统的性能和效率。
其他文献
图像是人们获取信息、保存信息和传递信息的重要手段,在人们的生活中占据了重要的地位,尤其是文本图像,其中包含的信息往往非常重要,也因此人们对于文本图像的质量要求很高。
随着计算机的普及,互联网用户数持续不断增长,网络上每天产生大量的数据。同时,一些具有大规模用户的信息系统,每天新增大量的数据。数据挖掘和机器学习算法为我们从繁杂的数据中
目前大多数分布式文件系统采用静态备份机制保证系统的高可靠性,其要求文件的访问模式和存取节点范围在其生命周期中保持一致,由于用来备份的文件副本数量全局统一,忽略了文件重
随着互联网技术的不断发展,各种Web应用可能具有不同的开发环境、部署平台,甚至通信协议。如何使这些应用在网络环境中进行无缝集成,实现信息共享和交换,正变得越来越重要。W
λ演算是一个把函数当做方程式的理论,是一个把函数当做表达式操作的系统。它与可计算性、计算机科学、逻辑及数学等都有存在一定的联系。λ演算和图灵机是等价的。且它是函数编程语言的基础。此外,λ演算和逻辑系统也存在着奇妙的对应关系,这种对应关系称为Curry-Howard同构。我们还可以利用λ演算构造各种不同的数学模型。因此,对λ演算的研究,对计算理论、程序语言设计、逻辑及数学等都有重要的意义。标准化、C