论文部分内容阅读
本文讨论了数据挖掘的发展状况和聚类相关的概念和技术,并详细讨论了基于网格密度的聚类算法,然后将此算法应用到保险系统中。在以往提出的聚类算法中,一般都是基于“距离(distance)”聚类的概念。无论是传统的欧氏几何距离(k-means)算法,还是其它意义上的距离算法,这类算法的缺点在于处理大数据集、高维数据集和不同类型属性时往往不能奏效,而且,发现的聚类个数常常依赖于用户指定的参数,但是,这往往对用户来说是很难的,同时,不同参数往往会影响聚类结果的准确性。在本文里要讨论的基于网格密度的聚类算法,它抛弃了距离的概念,它的优点在于能够自动发现存在聚类的最高维子空间;同时具有很好的处理高维数据和大数据集的数据表格的能力。