论文部分内容阅读
离群数据挖掘是数据挖掘中一项重要的任务,它往往可以使人们发现一些既真实而又出乎意料的知识。在欺诈检测和医疗分析等一些领域中,对离群数据的挖掘研究比对正常数据的挖掘研究更有意义。现有的基于距离的离群点检测算法存在不足,如不能有效地检测局部离群点。本文的研究目的就是在分析已有离群点检测方法的基础上,研究对象和其周围邻居间的距离关系,提出一种新的基于距离比的离群点检测算法,该算法能有效地识别局部离群点。本文主要内容由以下几部分组成:
首先,介绍了数据挖掘的基本概念、数据挖掘研究的主要内容和数据挖掘的背景和发展趋势等。然后对离群数据挖掘研究的基本概念、方法和常用的离群点定义作了介绍。
其次,在分析现有离群点定义的基础上,引入一个实例说明了传统基于距离的离群点定义在检测局部离群点方面的不足,针对这些定义的不足之处,提出了一种新的基于距离比的离群点判定定义。
第三,根据新的离群点定义提出了基于距离比的离群点检测算法,并对算法的复杂度进行了分析。
最后,在人工数据集和真实的数据集上进行了实验,并将本文的算法和相关算法进行比较,验证了算法的正确性和有效性。