基于密度网格的数据流聚类和概念漂移检测算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:zyhui1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流聚类算法是一项关键的数据挖掘技术,在数据流聚类研究中,算法框架可以分为两类:single-phase model 和 two-phase scheme。应用 two-phase scheme 的基于密度网格的数据流聚类框架,包含了在线处理阶段和离线处理阶段。在线处理阶段中,将据流数据映射到网格中,在离线处理阶段中,对网格数据聚类,此框架降低了数据流聚类的难度。但是在离线处理阶段中,这种聚类框架也存在三点缺陷:(1)基于固定阈值的稀疏网格或稠密网格判定不能适用于不均匀分布的数据流和多密度的数据流;(2)基于密度把相邻的网格连接为一类,而没有考虑数据之间的相似度,数据间相似度考量的缺失会影响数据聚类的准确性;(3)边界点的检测考量不够全面,有的边界点是噪音,而有的边界点可能属于邻近的簇。数据流的概念也会随着时间的推移而改变,这种现象被称为概念漂移。DCDA是一种基于粗糙集理论和滑动窗口技术的概念漂移检测算法,其主要思想是:计算两个滑动窗口之间的距离判断概念漂移。这种算法存在如下缺陷:(1)只适用于分类型数据;(2)没有考虑一个窗口中包含多概念的情况;(3)无法确定合适的滑动窗口尺寸。针对以上问题,本文的主要贡献如下:第一,针对DCDA概念漂移检测存在的缺陷,提出了一种基于密度网格的数据流概念漂移检测框架(简称DCDD)。该框架利用网格技术,进而使得其适用于一般的数据。在解决滑动窗口中多概念问题上,在在线处理阶段中创建一个临时密度网格和一个历史密度网格,根据数据集到达时间给网格赋予一个权值扩展了DCDA检测模型,计算临时密度网格和历史密度网格的距离检测概念漂移。在离线处理阶段中训练提取的概念漂移特征,提出一个预测模型,预测概念数据量,并根据预测量设计了可变尺寸的滑动窗口。实验结果表明,我们检测概念漂移的时间远低于DCDA算法,且检测的概念漂移更准确,更有效。第二,针对基于密度网格的数据流聚类框架的缺陷,提出了一种基于相对密度网格的数据流聚类算法和边界检测算法。其主要思想是:计算相邻网格之间的相似性,并根据相似性作为权重去影响相邻网格之间的连接,而连接相邻网格是根据一个考虑了密度、质心和相邻网格之间的相似性权重的差异模型。最后,.我们提出了一个边界检测算法,使用隶属函数给簇周围稀疏网格中的数据点打上簇标签。实验结果表明,我们的算法适用于多密度分布的数据流,且具有更好的聚类质量。
其他文献
随着互联网和通讯产业的快速发展,微博成为了又一个跨时代产品。微博是一个基于关系的信息分享、传播以及获取平台。用户可以通过WEB、WAP以及各种客户端组件,以140字左右的文
信息物理融合系统是一类将数字化、网络化系统与物理过程密切融合的设备系统,它集通信(Communication)、计算(Computation)和控制(Control)于一体,通过此3C技术的有机融合和
在高压开关柜中,由于触头、母线等过热,从而导致绝缘损坏而引起故障,最终导致短路、爆炸等严重后果。因此,高压开关柜温度实时监测,是电力系统安全、可靠运行的重要保障。由于高压
数据查询是两层传感网中用户获取和分析感知数据的重要手段。由于感知节点大都部署在无人值守、复杂多变的环境中,使得不完全数据广泛存在于两层传感网中,丢弃这些数据会降低查
无线传感器网络是传感器技术、嵌入式计算技术、分布式信息处理技术和通信技术迅速发展的结果。无线传感器网络由分布在检测区域内的无线通信节点以自组织的方式组成。作为一
随着电子商务系统的日益发展,用户的感知度不断提升,人性化的应用需求迅速增长,日益增长的用户消费数据占据着越来越多的存储空间,这些海量数据包含着很多非常有用的信息,如
利用计算机视觉技术实现农产品的自动筛选已经得到一定程度的应用。通过物体的形状、纹理差异等特征值的差异,已经实现了对大麦、小麦等不同种类物体的高效分选。通过物体二维
随着互联网的快速发展和日益普及,网络对安全保障提出了非常高的要求,网络安全已经成为人们关注的焦点。传统的网络安全防范体系主要是指通过防火墙、入侵检测、防病毒等被动
B样条方法由于采用了具有最小支撑性质的样条基函数,使得其不仅保持了用控制点定义曲线曲面等良好性质,而且解决了Bezier方法所固有的缺陷,如不具有局部修改性质以及在描述复杂
近年来,随着人工智能Agent技术和社会网络的快速发展,复杂动态社团网络中的牵制控制问题受到了各领域专家学者的广泛关注。牵制控制策略是一种简单、有效且实用的控制方法。它