一种基于距离的离群数据挖掘算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:kongct_2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群数据挖掘是数据挖掘中一项重要的任务,它往往可以使人们发现一些既真实而又出乎意料的知识。在欺诈检测和医疗分析等一些领域中,对离群数据的挖掘研究比对正常数据的挖掘研究更有意义。现有的基于距离的离群点检测算法存在不足,如不能有效地检测局部离群点。本文的研究目的就是在分析已有离群点检测方法的基础上,研究对象和其周围邻居间的距离关系,提出一种新的基于距离比的离群点检测算法,该算法能有效地识别局部离群点。本文主要内容由以下几部分组成: 首先,介绍了数据挖掘的基本概念、数据挖掘研究的主要内容和数据挖掘的背景和发展趋势等。然后对离群数据挖掘研究的基本概念、方法和常用的离群点定义作了介绍。 其次,在分析现有离群点定义的基础上,引入一个实例说明了传统基于距离的离群点定义在检测局部离群点方面的不足,针对这些定义的不足之处,提出了一种新的基于距离比的离群点判定定义。 第三,根据新的离群点定义提出了基于距离比的离群点检测算法,并对算法的复杂度进行了分析。 最后,在人工数据集和真实的数据集上进行了实验,并将本文的算法和相关算法进行比较,验证了算法的正确性和有效性。
其他文献
随着我国高新技术产业的发展很多人预测知识经济的变革即将到来,而变革的重点便是知识产权的保护。近几年来,软件制造行业在国民经济中占有的地位越来越重要,仅仅从该行业对GDP
机器学习是从大量、复杂的数据中迅速获取新颖、有效的知识的过程。基于核函数的机器学习方法是从统计学习理论中发展出来的较新的研究方法,它有效解决了传统机器学习方法的局
本论文主要针对鞍钢集团矿业公司目前在采矿、选矿生产中,原材料的计量管理中电子汽车衡的实际现状,通过采用RFID免接触无线自动识别技术及新的数据采集技术,利用鞍钢集团矿
基因表达式规划(Gene Expression Programming,GEP)是Ferreira Candida于2001年提出的一种新型进化算法,该算法继承了遗传算法编码简单和遗传编程的特点,采用线性定长方式对
由于时序数据区别于普通数据,为了达到有效的利用时序数据特征进行数据分析目的,本文针对时序数据特征提取方法进行了深入的研究,主要做了以下工作:(1)为了减小数据量,首先利用一
将CDN和P2P进行融合构成的混合内容分发系统能够充分结合两种技术的优势,提高系统的可扩展能力和可靠服务能力。本文针对CDN-P2P系统中底层P2P分发网络及其构造协议、CDN与P2
HART C8PSK(Highway Addressable Remote Transducer Coherent8-way sfhit key)协议是HART现场总线的第二代物理层协议,具有兼容HART现场总线第一代物理层协议HART FSK和速度
无线射频识别 (Radio Frequency Identification,RFID) 技术是20世纪90年代开始兴起的一种自动识别技术,是一种非接触的自动识别技术。它采用识别技术、通信技术,在大规模集成电
支持向量机最初于20世纪90年代由Vapnik提出,是一种新的统计学习算法,其学习原则是使结构风险最小化,这使得支持向量机具有很强的泛化能力。近年来,支持向量机在理论研究和算法实
本文针对时序数据为连续型数据值,以挖掘不确定性规则实现分类为目的,对神经网络中隐含的知识转化为不确定性决策规则的方法进行了研究。围绕该主题,研究内容包括四个方面:(1)针