论文部分内容阅读
数据挖掘是指从海量数据中探索出隐含的、全新的、有助于决策的知识或规则的过程,目前在很多互联网公司或是数据事务频繁行业都取得了相当广泛的应用,各类结果的展现层出不穷。聚类分析是数据挖掘领域最为重要也是最基础的的技术手段,无论是理论还是方法都是硕果累累。聚类算法的研究历史长达半个世纪,研究方向主要集中在基于距离的改进算法,代表算法有K-means、k-medoids。K-medoids作为一种典型的无监督的基于划分方式的聚类算法,有着聚类思想简单、聚类过程可行性高,聚类时间复杂度接近线性等优点,同时对大规模数据挖掘也表现出良好的支持,故在很多行业得到了迅猛发展。本文主要从K-medoids聚类算法评价目标函数入手,提出了两种改进方法:第一种方法是结合K-medoids聚类的类内散度矩阵、类间散度矩阵,引入凝聚函数法,将多目标聚类评价函数转化为易于计算的单目标评价函数,并给出了目标聚类评价函数的K-medoids算法的步骤及其流程图。第二种方法是根据Silhouettes有效性指标中的紧致性与分离性聚类评价指标度量,提出具有紧致性及分离性度量的K-medoids聚类评价函数,给出了结合簇间距离度量的K-medoids聚类算法步骤及流程。针对本文提出的两种改进的聚类算法与基于原始K-medoids算法的PAM(围绕中心点的划分算法(Partitioning Around Medoid,简称PAM)进行对比,归纳、分析,探讨了三种方法之间的异同点及适应性,并在人工及实际数据集上对三种方法进行实验仿真验证,从聚类结果的准确性方面说明了新提出的两种算法的可行性。