基于密度网格的数据流聚类和概念漂移检测算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户：zyhui1984

【摘要】

：

数据流聚类算法是一项关键的数据挖掘技术,在数据流聚类研究中,算法框架可以分为两类:single-phase model 和 two-phase scheme。应用 two-phase scheme 的基于密度网格的数

【作者】

：

崔泽林

【机构】

：

北京交通大学

【出处】

：

北京交通大学

【发表日期】

：

2017年01期

【关键词】

：

数据挖掘数据流聚类密度网格概念漂移

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据流聚类算法是一项关键的数据挖掘技术,在数据流聚类研究中,算法框架可以分为两类:single-phase model 和 two-phase scheme。应用 two-phase scheme 的基于密度网格的数据流聚类框架,包含了在线处理阶段和离线处理阶段。在线处理阶段中,将据流数据映射到网格中,在离线处理阶段中,对网格数据聚类,此框架降低了数据流聚类的难度。但是在离线处理阶段中,这种聚类框架也存在三点缺陷:(1)基于固定阈值的稀疏网格或稠密网格判定不能适用于不均匀分布的数据流和多密度的数据流;(2)基于密度把相邻的网格连接为一类,而没有考虑数据之间的相似度,数据间相似度考量的缺失会影响数据聚类的准确性;(3)边界点的检测考量不够全面,有的边界点是噪音,而有的边界点可能属于邻近的簇。数据流的概念也会随着时间的推移而改变,这种现象被称为概念漂移。DCDA是一种基于粗糙集理论和滑动窗口技术的概念漂移检测算法,其主要思想是:计算两个滑动窗口之间的距离判断概念漂移。这种算法存在如下缺陷:(1)只适用于分类型数据;(2)没有考虑一个窗口中包含多概念的情况;(3)无法确定合适的滑动窗口尺寸。针对以上问题,本文的主要贡献如下:第一,针对DCDA概念漂移检测存在的缺陷,提出了一种基于密度网格的数据流概念漂移检测框架(简称DCDD)。该框架利用网格技术,进而使得其适用于一般的数据。在解决滑动窗口中多概念问题上,在在线处理阶段中创建一个临时密度网格和一个历史密度网格,根据数据集到达时间给网格赋予一个权值扩展了DCDA检测模型,计算临时密度网格和历史密度网格的距离检测概念漂移。在离线处理阶段中训练提取的概念漂移特征,提出一个预测模型,预测概念数据量,并根据预测量设计了可变尺寸的滑动窗口。实验结果表明,我们检测概念漂移的时间远低于DCDA算法,且检测的概念漂移更准确,更有效。第二,针对基于密度网格的数据流聚类框架的缺陷,提出了一种基于相对密度网格的数据流聚类算法和边界检测算法。其主要思想是:计算相邻网格之间的相似性,并根据相似性作为权重去影响相邻网格之间的连接,而连接相邻网格是根据一个考虑了密度、质心和相邻网格之间的相似性权重的差异模型。最后,.我们提出了一个边界检测算法,使用隶属函数给簇周围稀疏网格中的数据点打上簇标签。实验结果表明,我们的算法适用于多密度分布的数据流,且具有更好的聚类质量。

其他文献

微博主观性发现关键技术研究

随着互联网和通讯产业的快速发展，微博成为了又一个跨时代产品。微博是一个基于关系的信息分享、传播以及获取平台。用户可以通过WEB、WAP以及各种客户端组件，以140字左右的文

学位

微博文本话题检测事件抽取能愿词挖掘主观性发现

实时信息物理系统的实时特性的面向方面测试方法

信息物理融合系统是一类将数字化、网络化系统与物理过程密切融合的设备系统,它集通信(Communication)、计算(Computation)和控制(Control)于一体,通过此3C技术的有机融合和

学位

信息物理融合系统实时系统面向方面软件测试

基于波长可调谐激光器的温度检测系统研究

在高压开关柜中，由于触头、母线等过热，从而导致绝缘损坏而引起故障，最终导致短路、爆炸等严重后果。因此，高压开关柜温度实时监测，是电力系统安全、可靠运行的重要保障。由于高压

学位

波长可调谐激光器温度检测系统ARM处理器传感原理

两层传感网隐私保护不完全数据查询协议研究

数据查询是两层传感网中用户获取和分析感知数据的重要手段。由于感知节点大都部署在无人值守、复杂多变的环境中，使得不完全数据广泛存在于两层传感网中，丢弃这些数据会降低查

学位

不完全数据查询协议隐私保护传感网

WSNs中测距误差对定位精度的影响及改进算法研究

无线传感器网络是传感器技术、嵌入式计算技术、分布式信息处理技术和通信技术迅速发展的结果。无线传感器网络由分布在检测区域内的无线通信节点以自组织的方式组成。作为一

学位

无线传感器网络测距误差在线修正定位精度牛顿迭代法

改进的聚类算法在不同数据集中的研究及应用

随着电子商务系统的日益发展,用户的感知度不断提升,人性化的应用需求迅速增长,日益增长的用户消费数据占据着越来越多的存储空间,这些海量数据包含着很多非常有用的信息,如

学位

k-means算法欧氏距离聚类算法过滤推荐高斯模糊

基于双目立体视觉的瓜子三维特殊形态检测的研究

利用计算机视觉技术实现农产品的自动筛选已经得到一定程度的应用。通过物体的形状、纹理差异等特征值的差异，已经实现了对大麦、小麦等不同种类物体的高效分选。通过物体二维

学位

三维重建立体匹配骨架线弯翘度曲率尺度空间瓜子形态

可信网络连接及相关架构研究

随着互联网的快速发展和日益普及,网络对安全保障提出了非常高的要求,网络安全已经成为人们关注的焦点。传统的网络安全防范体系主要是指通过防火墙、入侵检测、防病毒等被动

学位

网络访问控制可信网络连接网络接入保护网络准入控制可信平台模块

B样条曲线曲面实用表示研究

B样条方法由于采用了具有最小支撑性质的样条基函数，使得其不仅保持了用控制点定义曲线曲面等良好性质，而且解决了Bezier方法所固有的缺陷，如不具有局部修改性质以及在描述复杂

学位

工程应用B样条曲线曲面参数调节形状优化

基于多Agent理论的复杂社团网络牵制控制方法研究

近年来，随着人工智能Agent技术和社会网络的快速发展，复杂动态社团网络中的牵制控制问题受到了各领域专家学者的广泛关注。牵制控制策略是一种简单、有效且实用的控制方法。它

学位

复杂社团网络牵制控制协作博弈控制成本多Agent理论

基于密度网格的数据流聚类和概念漂移检测算法研究

其他学术论文