KNN分类方法研究以及在数据预处理中的应用

来源 :云南大学 | 被引量 : 0次 | 上传用户:qijich
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要从以下三个方面开展工作: 首先,对数据挖掘中的技术之一——数据分类进行研究。详细分析了现阶段比较常用的分类算法以及各自的优劣之后,重点分析了KNN分类方法的思想。总结出了传统KNN存在的三个缺陷。比较了模糊KNN相对传统KNN方法的优势之后,从模糊KNN方法出发,基于先聚集后分类的思想,提出了一个基于先聚集后分类的KNN分类方法,新方法比模糊KNN方法具有更好的时间性能,因此适合处理具有较大数据量的数据集。 其次,将提出的新方法用于数据预处理中,对关于植被的矢量地图数据进行分类,得到植被的类别标识,从而得到符合数据仓库要求的数据形式;并借助ArcGIS等地理信息系统软件直观显示分类的结果。 最后,对新方法进行了详细而广泛的实验。实验主要分为两部分:首先验证参数对新方法的影响,接下来比较新方法与模糊KNN方法在数据量及属性个数变化后的可扩展性。实验显示了新方法在处理大数据集时的优势。 综上,从新方法的理论研究,实际应用两个层面进行,理论分析和实验验证了新方法的有效性和正确性。
其他文献
21世纪是知识经济的时代。知识管理(Knowledge Management,或简称KM)就是运用集体的智慧提高集体的应变能力和创新能力,是为企业实现显性知识和隐性知识共享提供的新途径。根据
互联网技术的飞速发展,个人的工作、学习、生活越来越离不开互联网,在网络巾如何找到自己所需要的信息已经成为人们首先要面对的问题。搜索引擎的出现,方便了人们进行信息资源的
KNN-join是一种新近才提出的操作,它在数据挖掘中有着广泛的应用。利用KNN-join的“一次一个集合”的性质,一些数据挖掘任务,例如分类、例外挖掘和聚类等,就会更加容易地进行。Mu
随着计算机和网络技术的发展,信息安全显示出前所未有的重要性,而身份识别作为保证信息安全的必要前提,也越来越受到重视。生物特征识别技术是一项新兴的安全技术,也是本世纪最有
目前,多媒体通信技术的高速发展在改变着人类生活方式的同时,也对视频处理与传输提出了更高的要求。尤其是以交互式实时视频通信为代表的视频业务,其高带宽、低延时、低误码等要
对等网(Peer-to-Peer,简称P2P)技术是21世纪的技术热点之一。与传统的C/S模型比较,它在网络资源利用率、消除服务器瓶颈等多方面有明显的优势。目前P2P在文件共享、协同工作、
随着计算机技术、网络通信技术、自动化技术的发展,人们对居家生活提出了越来越高的要求,特别是近年来嵌入式技术的飞速发展,使信息技术、网络技术延伸到各个领域,给人们的居家生
软件复用的研究和实践表明,针对特定领域的软件复用活动相对容易取得成功。领域工程是为特定领域的软件复用建立可复用软件资产的主要技术手段,其包含领域分析、领域设计和领域
Web服务的出现极大地改变了应用软件系统的合作和集成模式,同时也为全球化的电子商务带来无限的前景。它打破了时间和空间的界限,使得相隔万里的任意两个陌生实体能够直接交互
乳腺癌是女性最常见的一种癌症,其死亡率仅次于肺癌,调查表明乳腺癌的早期检测能有效地提高它的治愈率。过去几十年,人们一直致力于计算机辅助自动检测和诊断乳腺癌方法的研究,以