基于聚类和分类的离群点检测方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sntatgh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据环境下产生的数据大多是海量的,而并非所有这些数据都属于正常数据,其中可能包含大量噪声或者离群点数据。这些离群点数据通常具有异乎寻常的重要性,可以通过数据挖掘中的离群点检测方法来识别这些不平凡的数据,并已应用于如欺诈检测、入侵检测、生态系统失调、公共卫生、医疗等多个领域。目前的离群点检测方法有很多,主要包括基于统计的、基于深度的、基于距离的、基于密度的、基于偏移的、基于聚类的和基于分类的等离群点检测方法。本文主要针对基于聚类和分类的离群点检测方法进行研究。  本文提出了一种基于GP-CLIQUE的离群点检测方法。即先通过GP-CLIQUE聚类算法找出数据集中所有聚类簇;再结合相对密度的概念,检测不属于任何聚类簇的数据对象是否为离群点。GP-CLIQUE聚类算法是一种基于高斯过程的CLIQUE改进算法,该算法在对噪声或离群点数据较多的数据集进行聚类时,在时间性能上较CLIQUE算法有明显提高,缩短了生成聚类簇的时间;而相对密度是基于密度的离群点检测方法中的概念,对局部离群点检测效果很好,提升了离群点检测效果。  本文提出了一种基于组合分类的不平衡数据的离群点检测方法。该离群点检测方法先根据测试数据在组合分类器下的输出结果变化值是否大于某个阈值P,来判别该测试数据是否为离群点;若该测试数据输出结果变化值小于P,则再进一步判定其是否属于离群点类。输出结果变化值用分类结果的协方差来度量,阈值P根据训练数据计算得到。该方法采用了对噪声或者离群点数据比较敏感的决策树作为组合分类器下的基分类器,可以更好地度量输出结果变化值;结合了一些处理不平衡数据的分类技术,如混合抽样、代价敏感学习等,提高了不平衡数据的离群点检测效果。
其他文献
入侵检测是网络安全体系中非常重要的一环,对网络的整体安全起了巨大的作用。作为一种积极主动的安全防护技术,入侵检测系统能对内部攻击、外部攻击、误操作和非授权访问等进
随着社会的快速发展,地图的自动标注就显得尤为重要。实际上,如何利用计算机进行地图标注自动配置,提高地图生产效率,已经成为影响和制约GIS应用和发展的一个迫切需要解决的
随着数字产品和互联网技术的发展,多媒体信息迅速膨胀,越来越多的数字图像被产生、传输和利用。图像作为一种内容丰富、表现直观、表达形式多样化的数字媒体形式越来越受到人们
垃圾邮件的急剧增加已经对人们日常的电子通讯造成了越来越严重的危害。垃圾邮件不仅耗费掉宝贵的网络带宽和存储空间,并且当它们作为病毒和恶意代码的传播载体时,也对网络安全
随着现代化互联网技术的发展,科学技术不断促使动漫技术的进步,同时也为传统教育的改革带来了动力。远程教育、电子书、电子图书馆等现代化教育模式如雨后春笋般涌现出来。动画
在IT技术高度发达的今天,基于网络的信息系统越来越成为各种企业、单位和组织所必需的信息管理工具。不同的信息系统所要解决的问题各不相同。但是由于它们的开发方式类似,且
当前,网格技术正在越来越多地被应用于海量空间资源共享的基础设施,其在跨虚拟组织的大规模空间应用上的能力和前景也受到越来越多的关注。在这样的背景下,如何在异构、资源分布
三维破碎文物拼接技术是计算机辅助文物复原的核心技术,是计算机视觉、图象分析和模式识别中的突出难题,它被应用到考古学、古生物学、文物复原等许多领域。近年来国际上关于破
在视频监控系统中,相对于内容较为固定的背景,人们更多关注运动前景。在夜晚等场景下,由于环境光亮度较低,摄像头会自动提升感光系数,另外前景距离摄像头较远,摄像头获取的人
无线网络应用广泛,已经引起相关研究人员的高度注意。在应用无线网络的实践中,为了提升网络性能,自然而然涌现出大量的优化问题。和其他领域的情形类似,无线网络中的优化问题也常