论文部分内容阅读
随着计算机和通信信息技术的爆炸式发展,在很多领域内积累了海量的数据,这些庞杂的数据隐藏着很多有价值的信息,人们希望能够从中获得有用信息,来高效地推进社会经济的发展。这种需求导致了数据挖掘(Data Mining)技术的诞生,它是计算机与信息技术领域最热门的应用价值极高的研究方向之一。聚类(Clustering)技术是数据挖掘应用中的不可或缺的一部分,作为一个非常热门的研究内容,其主要目标是利用并分析数据间的相关特性来识别聚类对象的划分类别。本文主要研究了DBSCAN算法中聚类参数的自适应确定的问题,以及基于网格密度划分的增量聚类方法,具体的研究内容如下:1.根据核密度估计的基本理论,分析了有关DBSCAN聚类方法的优势和缺陷,采用非参数核密度估计理论来分析数据样本的分布特征的思想,研究和改进了一种自动确定Eps和minPts参数的方法,该方法能够选取恰当的Eps和minPts参数,处理过程中不再需要指定聚类参数,整个过程自动完成。实验和仿真结果表明该方法不但提高了聚类效率,还能自适应地确定两个聚类参数。2.根据增量算法的基本思路,利用了一种网格密度的划分方法,并借助前一章参数自适应的方法,研究了一种基于DBSCAN的动态增量聚类方法。该方法不必像传统的增量算法那样,更新一次样本数据集就聚类一次,只要对目标样本扫描一次,获取划分的每个网格单元的内容和信息,最后分别对这些划分的有限个网格单元进行处理,并将聚类信息映射到最终的结果中。实验和仿真结果说明该算法能够有效地处理数据更新的问题,效率高且复杂度低,简单有效。