基于数据流的聚类分析算法研究

来源 :兰州交通大学 | 被引量 : 5次 | 上传用户:pisahaochima
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的飞速发展,在众多领域的实际应用中产生了一种新的数据集合,其数据是动态的、有序的、连续的、无限的,对这种数据的处理只能按照顺序访问,并读取一次或者有限几次,这种数据集合就称为数据流。传感器中的数据、股票价格信息、网络传输监控、金融证券信息分析等都是我们常见的数据流。本文在对数据挖掘进行研究的基础上引入数据流聚类分析技术及方法的相关介绍,客观分析现有算法的优劣性,并结合现实世界数据流特性及实际应用情况,提出面向含有噪声数据的数据流聚类算法研究。主要分为以下几个部分:(1)对传统的聚类算法和经典的数据流聚类算法进行分析比较。其中包括传统聚类算法的要求、分类和比较等;数据流聚类算法的特点和要求,几种经典算法的分析比较等;为进一步研究数据流聚类算法奠定了理论基础。(2)详细介绍双层数据流聚类算法框架。在线层算法是对每次新到的数据点进行简单快速地处理,生成并存储概要数据信息;离线层算法是运用相对复杂但高效的聚类算法对在线层输入的结果进行计算,得出较高质量的聚类结果。本文提出的基于网格和密度的数据流聚类算法就是采用的双层数据流聚类框架。(3)针对传统聚类算法存在的问题,本文提出一种基于网格和密度的数据流聚类算法GDDStream。算法采用了在线/离线双层数据流聚类框架,在线层算法对流入的新数据快速实时地进行映射,即根据每个数据对象的属性值把它定位到相应的网格单元中;离线层算法随着密度的变化自适应地调整聚类,不断地更新网格单元的特征向量,根据密度来合并单元格聚成簇或类。为了提高聚类算法的质量和速度,本文还对噪声数据进行了有效地处理,能够根据密度的动态变化区分出真正的噪声数据并去除,使得占用的存储空间变小,算法的工作量变少,提高算法执行效率。最后,对本文提出的GDDStream算法进行实验仿真,结果证明了该算法具有较好的伸缩性,较快的处理速度和较高的聚类质量,并能对任意形状的簇聚类。应用部分又以入侵检测为代表的具体数据流环境为研究对象,对GDDStream算法进行了大体的论述,初步提出了应用于入侵检测的方法。
其他文献
本文介绍了定量蛋白质组学中一个较为年轻和重要的新课题:基于质谱的非标记定量。基于质谱的非标记定量技术不使用同位素标记等化学手段,而是通过对质谱原始数据的分析和处理来
IMS体系结构中非常重要的一部分就是各种形式的应用服务器,IMS系统中增值业务都是通过应用服务器来实现。Presence是多媒体通信中非常重要的一种通信方式,在这样的背景下实现
生物识别技术代表了未来身份验证技术的发展方向,而自动指纹识别技术是最可靠、最有效的生物识别技术之一。随着IC产业的发展,指纹识别系统正朝着脱离计算机,以更灵活、实用的方
随着我国金融业改革不断深入发展,银行利用较为成熟稳健的企业内部网络(Intranet),通过与各行业之间企业外联网(Extranet),面向客户提供包含基于互联网(Internet)在内的各类
Ad Hoc网络是一种没有中心节点、无需固定基础设施的多跳无线网络,网络中节点的资源(能量、内存、带宽等)受限,在不少情况下,Ad Hoc网络中的节点能量较难得到补充。另外,由于
目前,网络地理信息系统发展迅速,但彼此数据和服务共享能力差。学者们希望借助语义Web中的本体等技术来提高共享能力。然而,由于尚未创建本体的统一方法和理论,导致不同团体或个
在空间综合材料实验模块的研制过程中,地面实验系统起着重要的作用,它对空间综合材料实验模块进行测试和验证。本软件是地面测试系统的上位机软件,为空间综合材料实验模块提
指纹识别作为一个较好的生物识别方法,已得到广泛的应用。基于细节点的传统指纹识别方法很容易受噪声带来的伪细节点的影响,已没有很大的改进空间。本文以指纹纹线的宏观线形为
过程感知信息系统(Process-aware Information Systems,PAIS)中过程建模和过程实施的特征反映了PAIS过程混合了宏观抽象的问题域过程(以建模为主要目的)和微观具体的计算机域
近年来,面向服务的计算(Service Oriented Computing)和面向服务的体系结构(Service Oriented Architecture)得到了学术界和工业界的广泛关注。服务为实现开放的网络环境中各