论文部分内容阅读
增量式挖掘,就是对于大数据集(数据库或数据仓库等),当数据递增的时候,增量地更新数据挖掘结果,而不是对每次更新后的整个数据集进行挖掘。对于许多种类的大型数据库或数据仓库挖掘,增量数据挖掘是一个诱人的目标。本文主要研究了基于孤立点因子的增量式挖掘技术。 首先讲述了数据挖掘的基本概念和方法,介绍了数据挖掘研究的一般对象和典型应用;研究了聚类挖掘技术,说明了评价聚类的一般准则,简单介绍了现有的典型的增量挖掘方法,为进一步研究和学习积累了经验,明确了需求。 在现有的大多数聚类挖掘方法中,参数的影响较大,而且常常需要用户指定参数,参数的决定成为实际应用的一个难点。本文在研究基于密度的聚类算法的基础上,提出了基于孤立点因子的聚类算法,有效地解决了这个问题;并在此基础上,提出了增量式算法,用于增量的更新聚类结果。文中同时给出了孤立点因子聚类方法的有关概念,以及相应的算法描述,详细说明了算法思想和聚类过程。 最后,实验分析了基于孤立点因子的聚类算法的有效性,并与有关算法作了性能对比,实验说明了基于孤立点因子的聚类算法对于参数的健壮性;实验也简要分析了增量式算法的有效性和效率。