基于K-距离的孤立点和聚类算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:kcl770514
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从大型数据集中发现有趣的,有用的且预先未知的知识的过程被称为数据挖掘。数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大型数据集中提取可信、新颖、有效并易于理解的知识、规律或高层信息。这给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图象处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。 本文介绍了数据挖掘理论,对聚类及孤立点检测算法进行了深入地分析研究。在分析了基于密度的聚类算法和基于密度的孤立点算法的基础上,提出了基于局部孤立系数的孤立点检测和基于局部孤立系数的聚类算法;基于K-距离因子和增强的K-距离因子的孤立点检测算法。 本文使用Visual C++6.0实现了基于局部孤立系数的聚类算法、基于局部孤立系数的孤立点算法、基于K-距离因子的孤立点算法、增强的K-距离因子的孤立点算法、LOF算法、RDBKNN算法。在综合数据集上和真实数据集上做了大量的对比实验来验证孤立点算法的正确性,在综合数据集上验证孤立点算法的效率;在综合数据集上、真实数据集上和多密度数据集上验证基于局部孤立系数的聚类算法的正确性,在综合数据集上验证聚类算法的效率。 实验结果表明,基于局部孤立系数的聚类、基于局部孤立系数的孤立点、基于K-距离因子的孤立点、增强的K-距离因子的孤立点算法能够准确、有效的发现聚类和孤立点。聚类和孤立点检测算法在执行效率、聚类及孤立点检测效果等方面有一定的优越性。 总之,基于局部孤立系数的聚类算法不仅适合于均匀密度的数据集,而且对多密度数据集上也适合。该算法能有效的识别出各种形状的聚类,而且也能有效的识别出孤立点或噪声,在和RDBKNN算法对比中显示出了一定的优越性。最后,实验结果表明,无论是聚类算法还是孤立点检测算法都比原来的算法效率高。
其他文献
学位
入侵检测是一种主动的安全防护技术,是继防火墙、数据加密等传统安全保护措施之后的又一道安全闸门。随着计算机和网络技术的不断发展,海量存储和高带宽传输技术的普及,入侵
P2P(Peer-to-Peer,P2P)提供了诸如自主性(self organization)、负载平衡(load balancing)、有效性(availability)、容错冗余(fault tolerance)和匿名(anonymity)等很多吸引人
目前多媒体音视频的应用越来越广泛,新的压缩编码算法层出不穷,文件的格式也越来越多样化。流媒体技术的广泛引用,其传输协议也在演化发展中。如何研制一种开放架构的播放器
Peer-to-Peer网络技术是目前国际计算机网络技术研究领域的一个研究热点,其主要目的是充分利用互联网中的潜在资源,包括计算资源,存储资源,文件资源等。构建P2P网络的目的之
医学图像分割技术是医学图像处理和分析领域的基础技术之一,是近年来备受研究人员关注的热点问题。医学图像分割的目的是把图像中具有特殊含义的不同区域分割出来,并使分割结
网络拓扑发现技术是建立在网络拓扑结构、网络管理模型、网络协议以及网络发现工具之上的综合网络技术,是现代网络管理的重要部分之一。能否正确掌握网络的拓扑结构直接影响着
随着网络应用的蓬勃发展和网络规模的迅速扩大,基于IPv4协议的Internet逐渐显示出地址空间匮乏、缺乏QOS保证等弊端。IETF从1991年开始着手研究下一代IP网络协议——IPv6协议
随着计算机网络和多媒体技术的发展,动画、语音和视频等多媒体信息在因特网上变得越来越流行,基于计算机网络和多媒体技术的远程教育、视频会议和实时直播等信息服务得到了迅速
汽车工业的快速发展使城市交通拥挤问题日益突出。解决此问题的关键在于充分发挥交通信号协调控制的作用,以降低交叉路口平均延误,减少车辆平均停车次数,从而缓解城市交通压