高维数据空间中离群点检测算法的研究

来源 :南京财经大学 | 被引量 : 0次 | 上传用户:heliuer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点挖掘由于其在检测金融欺诈和网络入侵、疾病预防和控制、灾害气象预报等许多方面的广泛应用而成为数据挖掘领域中的一个重要研究方向。随着研究的进行,大型、低维数据中的离群点的检测已经有了比较深入的研究,取得了比较多的成果。但是,在大型、高维数据中的离群点的检测则还面临许多的问题和挑战,有许多问题需要进行深入、系统的研究。本文是在现有算法的基础上,提出了基于遗传算法与模拟退火相结合的高维数据中离群点的挖掘方法。本文首先介绍了数据挖掘和离群数据挖掘的概念,论述了已有的离群点检测算法,并对它们进行了比较和分析,然后讨论了几种重要的高维离群点检测算法,指出存在的问题,在此基础上提出了基于遗传算法和模拟退火算法相结合的高维空间离群数据检测方法。该方法首先将高维数据空间的每一维进行网络划分,为了克服由于网络划分造成的相邻数据点的分裂,该方法采用两次划分的方法,并将两次划分的结果压缩到同一棵网格计算树上,然后对落在网格中的数据点进行编码,再计算每个网格的稀疏系数。为了降低计算复杂度,在高维空间查找稀疏系数最小的前n个网格及其中的点。本文采用了遗传算法,为了防止遗传算法的“早熟”现象,算法中引入了模拟退火算法的思想。实验证明,该方法是有效的。
其他文献
内容分发网络(Content Distribution Network或Content Delivery Network,简称CDN)是一种基于现有网络的重叠网络系统,它包括若干个分布在网络不同位置的缓存服务器,所有用户
空域管理辅助系统是监视空域范围内的航空器飞行情况的主要工具与航空管制人员制订空域内飞行调配方案的依据。研究基于CBR的空域管理辅助系统,可以为航空管制人员提供辅助存
日常生活和工作中,我们常常需要改变图像的尺寸以满足不同领域及应用的需求。数字图像缩放已成为数字图像处理领域中一个很重要的话题,而图像插值技术则是实现图像缩放的一个
遥感是以航空摄影技术为基础,从20世纪60年代发展起来的一门新兴技术,被广泛应用于气象、测绘、地球资源与环境科学以及农业、林业、地质科学等重大领域。遥感影像解译是将遥感影像数据转化为目标地物信息的过程,可分为人工目视解译、计算机自动解译及人机交互解译三种方式。遥感图像只有经过解译才能应用到不同领域。目前传统的人工目视解译已经无法满足日趋庞大的遥感数据量,利用计算机进行交互解译或者自动解译成为一个必
生物信息学的研究处在一个数据爆炸的时代,近年来在基因组学、代谢组学、转录组和蛋白质组学等领域技术的进步,使得生物学家可以有更多的数据从不同方面对生命体进行分析。基
可信计算平台具有身份证明、完整性检验、数据安全存储等功能。可信平台模块(TPM)是执行可信计算功能的实体。为了配合硬件TPM,可信计算组织提出了可信软件栈的概念。可信软
僵尸网络已经成为当今互联网上最主要的网络攻击平台,可进行分布式拒绝服务攻击、发送垃圾邮件、钓鱼、信息窃取等恶意网络行为。随着僵尸网络的兴起,研究僵尸网络的检测技术
视频目标跟踪是计算机视觉领域的一个核心问题,已经成为各国高度关注的焦点。本文主要研究用于车载红外视频的目标跟踪问题。视频中复杂的背景图像和红外目标本身及其运动情
本文首先对数据库安全进行了研究,然后综述了数据库入侵检测的相关技术,最后针对目前数据库安全系统的特点,分析了传统数据库安全机制的弱点与不足,结合数据挖掘技术、入侵检
万维网的迅猛发展,引起了Web数据的急速膨胀。面对泛滥的海量Web信息,“富数据,贫知识”的现象引起了越来越广泛的重视。为了解决这个矛盾,信息抽取技术应运而生了。目前已投