基于滑动窗口和子空间划分的数据流聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:chenman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机通信技术和网络技术的飞速发展,出现了一种新的数据模型—数据流。与传统的数据模型不同,数据流的特点是:(1)数据流是无限的,无法完整的存储;(2)数据的传输是高速的、实时变化的;(3)数据流到达是连续的、严格有序的;(4)只能顺序的访问一次或有限次。根据数据流的特点,在数据挖掘领域,聚类分析成为热点研究课题。近年来人们提出了很多基于数据流模型的聚类方法,并且得到一定的成果。本课题针对数据流的特点做了以下的研究。首先,对动态滑动窗口的数据流聚类方法进行研究,基于数据流流速实时变化的特点,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,使有限的系统资源得到有效的应用,并计算数据点与微聚类中心的距离,以维护微聚类特征;离线阶段,对在线聚类阶段的聚类结果采用k-means算法进行宏聚类。其次,对基于子空间划分的高维属性数据流聚类进行研究,提出一种快速的子空间划分的数据流聚类方法。在线阶段,提出具有相同边和相同顶点的扩展相连单元。此外,引入了改进的CD-Tree格结构来存储非空单元信息,保持单元之间的位置关系,保持密度单元和扩展相连单元的隶属关系,对过期数据采用衰减函数来减少对当前数据的影响;离线阶段,通过在半径范围内搜索全部微簇的密度单元来产生最终的簇。最后,使用JAVA语言对上述算法进行实现,使用现实数据集KDD-CUP-99和人工数据集对提出的算法进行验证,验证算法的可行性和有效性。
其他文献
随着计算机图形学和硬件技术的高速发展,把计算机技术应用于动画片的制作,出现了大量计算机动画绘制辅助工具,大大减轻了绘画人员的负担,提高了制作效率。在计算机动画制作辅