论文部分内容阅读
本文主要从以下三个方面开展工作:
首先,对数据挖掘中的技术之一——数据分类进行研究。详细分析了现阶段比较常用的分类算法以及各自的优劣之后,重点分析了KNN分类方法的思想。总结出了传统KNN存在的三个缺陷。比较了模糊KNN相对传统KNN方法的优势之后,从模糊KNN方法出发,基于先聚集后分类的思想,提出了一个基于先聚集后分类的KNN分类方法,新方法比模糊KNN方法具有更好的时间性能,因此适合处理具有较大数据量的数据集。
其次,将提出的新方法用于数据预处理中,对关于植被的矢量地图数据进行分类,得到植被的类别标识,从而得到符合数据仓库要求的数据形式;并借助ArcGIS等地理信息系统软件直观显示分类的结果。
最后,对新方法进行了详细而广泛的实验。实验主要分为两部分:首先验证参数对新方法的影响,接下来比较新方法与模糊KNN方法在数据量及属性个数变化后的可扩展性。实验显示了新方法在处理大数据集时的优势。
综上,从新方法的理论研究,实际应用两个层面进行,理论分析和实验验证了新方法的有效性和正确性。