论文部分内容阅读
计算机技术、传感器网络与通信技术的高速发展,使得短时间内产生和传输大量数据成为现实,这种大量、快速、无限的数据被称为数据流(Data Stream)。目前,数据流处理技术广泛的应用在金融分析、传感器网络、复杂危险环境监控、网络监控和入侵检测等领域中。面对携带大量数据而又快速、连续到来的数据流,原本针对存储在磁盘货内存中的静态数据的传统数据库查询处理技术力不从心。因而,数据流处理技术对数据挖掘方法提出了更高的要求。作为数据挖掘的一个研究方向,数据流聚类分析技术已经成为热点研究课题。传统的面对静态数据的聚类分析方法主要有基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法。现阶段的数据流聚类方法很多都是在传统聚类方法上进化来的,比较经典的聚类算法Stream、CluStream、D-Stream算法的,都是在传统聚类的方法所做的改进。本文通过研究基于网格和基于密度的经典算法DBCAN、CliQue、基于数据流的经典算法CluStream,提出了一种基于桶密度的数据流聚类算法BDCluStream算法。该算法拥有CluStream算法和基于网格和基于密度的算法的优点。能够识别任意形状簇、在线层速度快、利用反馈原理解决部分桶边缘点丢失、不需要用户指定聚类个数等。利用改进算法BDCluStream构建了入侵检测系统,对系统各模块进行了详细的描述并给出了伪代码,最后使用Visual Studio2005设计并实现了基于对话框的入侵检测系统,目的在于检验算法在实际应用中的性能。利用KDDCUP1999数据集进行了实验,实验结果表明,本文提出的数据流聚类算法具有较好的监测能力,聚类速度快,能够适应高速网络环境下对海量数据聚类的要求。