论文部分内容阅读
近年来,随着信息技术的飞速发展,在众多领域的实际应用中产生了一种新的数据集合,其数据是动态的、有序的、连续的、无限的,对这种数据的处理只能按照顺序访问,并读取一次或者有限几次,这种数据集合就称为数据流。传感器中的数据、股票价格信息、网络传输监控、金融证券信息分析等都是我们常见的数据流。本文在对数据挖掘进行研究的基础上引入数据流聚类分析技术及方法的相关介绍,客观分析现有算法的优劣性,并结合现实世界数据流特性及实际应用情况,提出面向含有噪声数据的数据流聚类算法研究。主要分为以下几个部分:(1)对传统的聚类算法和经典的数据流聚类算法进行分析比较。其中包括传统聚类算法的要求、分类和比较等;数据流聚类算法的特点和要求,几种经典算法的分析比较等;为进一步研究数据流聚类算法奠定了理论基础。(2)详细介绍双层数据流聚类算法框架。在线层算法是对每次新到的数据点进行简单快速地处理,生成并存储概要数据信息;离线层算法是运用相对复杂但高效的聚类算法对在线层输入的结果进行计算,得出较高质量的聚类结果。本文提出的基于网格和密度的数据流聚类算法就是采用的双层数据流聚类框架。(3)针对传统聚类算法存在的问题,本文提出一种基于网格和密度的数据流聚类算法GDDStream。算法采用了在线/离线双层数据流聚类框架,在线层算法对流入的新数据快速实时地进行映射,即根据每个数据对象的属性值把它定位到相应的网格单元中;离线层算法随着密度的变化自适应地调整聚类,不断地更新网格单元的特征向量,根据密度来合并单元格聚成簇或类。为了提高聚类算法的质量和速度,本文还对噪声数据进行了有效地处理,能够根据密度的动态变化区分出真正的噪声数据并去除,使得占用的存储空间变小,算法的工作量变少,提高算法执行效率。最后,对本文提出的GDDStream算法进行实验仿真,结果证明了该算法具有较好的伸缩性,较快的处理速度和较高的聚类质量,并能对任意形状的簇聚类。应用部分又以入侵检测为代表的具体数据流环境为研究对象,对GDDStream算法进行了大体的论述,初步提出了应用于入侵检测的方法。