面向数据流的局部异常孤立点动态挖掘算法研究及应用

来源 :青岛大学 | 被引量 : 0次 | 上传用户:leocaan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的大多数算法主要研究问题是发现“大模式”,孤立点发现算法是用来发现数据集中“小的模式”,孤立点是指数据集中那些偏离其他的观测值以至于被怀疑为从不同的机制产生的观测值。孤立点发现的任务可以描述如下:给定一个由N个数据点或对象构成的集合,及预期的孤立点数量n,发现与剩余的数据相比是最不一致的、异常的或显著相异的前n个对象。孤立点发现是数据挖掘中的一个重要研究方向,已经应用于许多领域,尤其在网络入侵检测中,入侵用户的行为明显异于一般的网络用户,基于此,本文研究了孤立点发现算法,并将孤立点分析算法应用于网络入侵检测中。局部异常孤立点LOF算法可以发现基于不同密度的孤立点,给每个对象赋予一个局部异常因子来表示其异常程度,更贴近孤立点的本质定义。近年来,一种新的数据应用正受到广泛关注,在这些应用中数据不再保存持久不变的关系,而是规模宏大,连续,快速,随时间变化的数据流。由于现实中不断到达的网络连接记录属于流数据,而原静态LOF算法由于时间复杂度高且无法适应数据流的变化等原因不适合实时的数据流挖掘,本文着重研究了在数据流环境下准确识别和发现孤立点问题,提出了一种孤立点数目n阈值自动调整的局部异常孤立点动态挖掘算法:n-IncLOF算法。该算法既保留了原静态LOF算法的优点又能满足对快速到达且不断变化的数据流的实时连续查询的要求。n-IncLOF基于局部异常LOF孤立点发现算法,考虑到孤立点在流数据发生时的不均匀性,给出了孤立点数目阈值n调整函数,分析了算法过程中数据点的插入、删除和修改等过程,给出了n-IncLOF算法描述,并分析了算法的复杂度。基于n-IncLOF算法研制了网络入侵异常检测系统。设计并实现了采用n-IncLOF算法做检测引擎基于主机和网络混合特征属性的实时网络入侵异常检测系统OutlierDIDS,并通过该系统对KDD CUP99数据流的异常检测实验证明了n-IncLOF算法对孤立点数目的变化具有很强的自适应能力,相比原算法不仅大幅提高了检测率还降低了误报率,同时也证明了OutlierDIDS系统满足了网络入侵检系统对有效性、自适应性和实时性的要求。
其他文献
当今社会,随着信息技术的不断发展,企业为了适应彼此间日趋频繁的业务活动和提高自身竞争力,投入大量资源研发针对各部门需求的业务系统。然而这些业务系统功能各异,彼此之间
全球互联网技术、网络通信技术、计算机技术的高速发展,全球网络信息化系统已经成为现在各行各业持续发展的基础设施,网络信息系统对整个社会发展做出了巨大的贡献。由于数据
无线传感器网络(WSNs)综合了现代网络无线通信技术、嵌入式计算技术、分布式信息处理技术、传感器技术等先进技术,具有十分广阔的应用前景,是目前网络通信领域的新研究热点之
现实生活中的很多问题都是多目标优化问题,越来越多的专家和学者使用演化算法来解决多目标优化问题,并且取得了比较好的结果。在演化过程中,如果演化选择方法使用不当,很难使
随着Internet应用的迅速发展,信息过载使人们面对太多的信息而难以选择和消化,信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,使人们易于信息迷失。迫切需要一种
随着互联网的发展与普及,搜索引擎的使用已经成为人们学习工作中获取信息的重要手段之一。因此,要提高搜索引擎的搜索效率,除了向人们普及正确的使用方法和技巧外,对搜索引擎
三维网格模型在计算机图形学、可视化等领域的广泛应用,使得人们开始关注三维网格模型的骨架提取和细分的研究。骨架提取和网格细分是三维网格模型的基本问题。骨架提取主要
自动代码生成是指使用已有程序自动生成目标程序的过程。其更为详细的描述是通过读取输入的工程设计中的各种文档及模型,按照一定领域规则,生成某种计算机能编译执行的源代码
基于视频分析的智能视频监控是计算机视觉与模式识别领域的一个重要研究方向,也是近些年来很受重视的一项技术。伴随着公共安防需求的不断增加,滞留目标检测已经成为智能视频
由于可变形体仿真广泛的应用领域,它在计算机图形学中变得越来越热门。这类仿真被广泛应用于计算机图形学动画中,例如电脑游戏中布料的模拟,医学手术训练系统中人体软组织的