论文部分内容阅读
大数据环境下产生的数据大多是海量的,而并非所有这些数据都属于正常数据,其中可能包含大量噪声或者离群点数据。这些离群点数据通常具有异乎寻常的重要性,可以通过数据挖掘中的离群点检测方法来识别这些不平凡的数据,并已应用于如欺诈检测、入侵检测、生态系统失调、公共卫生、医疗等多个领域。目前的离群点检测方法有很多,主要包括基于统计的、基于深度的、基于距离的、基于密度的、基于偏移的、基于聚类的和基于分类的等离群点检测方法。本文主要针对基于聚类和分类的离群点检测方法进行研究。 本文提出了一种基于GP-CLIQUE的离群点检测方法。即先通过GP-CLIQUE聚类算法找出数据集中所有聚类簇;再结合相对密度的概念,检测不属于任何聚类簇的数据对象是否为离群点。GP-CLIQUE聚类算法是一种基于高斯过程的CLIQUE改进算法,该算法在对噪声或离群点数据较多的数据集进行聚类时,在时间性能上较CLIQUE算法有明显提高,缩短了生成聚类簇的时间;而相对密度是基于密度的离群点检测方法中的概念,对局部离群点检测效果很好,提升了离群点检测效果。 本文提出了一种基于组合分类的不平衡数据的离群点检测方法。该离群点检测方法先根据测试数据在组合分类器下的输出结果变化值是否大于某个阈值P,来判别该测试数据是否为离群点;若该测试数据输出结果变化值小于P,则再进一步判定其是否属于离群点类。输出结果变化值用分类结果的协方差来度量,阈值P根据训练数据计算得到。该方法采用了对噪声或者离群点数据比较敏感的决策树作为组合分类器下的基分类器,可以更好地度量输出结果变化值;结合了一些处理不平衡数据的分类技术,如混合抽样、代价敏感学习等,提高了不平衡数据的离群点检测效果。