基于兴趣度的离群点挖掘技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:juejue_wang1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代企业在其信息化的过程中积累了越来越多的数据,对于一些企业应用,异常数据的挖掘比常规模式的挖掘更有应用价值。对于这类数据挖掘研究的需求日益明显增加,无论在国内还是国外都形成了广阔的研究领域,该项技术越来越多的投入到现今社会的诸多应用中,发挥着其不可被替代的作用。例如企业管理风险的预测分析,网络入侵检测等。这些技术都需要对于异常情况快速而敏感的检测,这些都为离群点的挖掘提供了潜在的应用背景。在目前的数据挖掘研究中,兴趣规则的研究大多基于关联规则和强关联规则的考虑,孤立点的研究也只是基于单库,适应高维的孤立点检测的有效算法依然在研究中,基于这些因素,本文提出了不同于以往研究的一种兴趣度新定义——新奇度,即把兴趣度和离群点结合起来,注重具有此类特征的离群点的挖掘。在现有的LOF算法和GridLOF算法的基础上,把数据库看作数据集,用孤立点概念代替新奇数据的概念,提出改进后的基于兴趣度的挖掘新奇数据的算法GPOD (a Grid-based Preprocessing Outlier Detection algorithm),使其能更有效、快速的挖掘出离群点,GPOD算法在高维数据集的挖掘中也具有一定的理论价值。在适当的环境下可以进一步引申为兴趣规则,并推广应用于多库环境中,挖掘出具有实际意义的有用规则,进而为企业决策者提供有用的信息。本文在介绍相关的概念及定义的基础上,详细讨论了兴趣规则的具体定义,具体意义及应用。还重点介绍挖掘算法采用的技术——孤立点检测和聚类,阐述了基于兴趣度的离群点挖掘方法以及如何由库间规则得出多库下的规则;此外,本文还具体介绍了GPOD算法在多库下实行的步骤,给出主要的算法代码,并给出算法的实现部分和实验结果,验证算法的先进性,分析算法的性能,给出其优点和不足,与算法LOF和GridLOF的一些比较。最后做出总结,指出本课题进一步研究和有待完善的内容以及下一步研究工作的主要方向。
其他文献
多播技术普及的同时,多播应用也对多播的安全性能提出了要求。多播在安全性方面与普通的单播有着显著的不同。针对多播技术自身的特点,构造高效的、安全可靠的多播通信技术已成
本文选题来源于国家高技术研究发展计划(国家863计划)资助项目“黑客监控技术研究”,同时,为2003年10月争取到国家863计划的滚动研究《网络协同安全技术研究》起到预研作用,并为
近年来,随着数据库技术的应用和发展,人们尝试对DB中的数据进行再加工,形成一个综合的、面向分析的环境,以更好地支持决策分析,从而形成了数据仓库技术(Data Warehousing,简称DW)。
针对当前CILP技术的局限性,该文研究能够导出包含多个变量的多项式不等式/近似等式/近似非等式约束的CILP新技术,并研制了一个自顶向下的CILP原型系统BPU-CILP.BPU-CILP系统
随着网络技术的迅速发展和网络环境的日益复杂,网络管理已经从最初的保证网络正常运转的手段发展到目前用来提升网络价值的主要方法.网络管理技术的发展也经历了提出问题、解
该文结合实验室863/CIMS项目的实践成果,对基于移动代理的敏捷供应链的相关技术进行了研究,提出了基于P_ROATL模型的移动代理本体论,对于多安全域移动代理的访问协议进行了探
移动自组网是一种自创建,自组织,自管理的网络。它是由一组移动节点组成的多跳无线通信网络。与传统网络不同,移动自组网络不需要固定的地面设备支持和管理。本文主要研究移动自
学位
学位
土地管理信息系统衍生于地理信息系统,是利用地理信息、遥感、数据库、网络等高新技术进行土地业务管理的系统工程,它是由土地相关信息、土地的权属关系、自然属性和经济属性组