离群检测与离群释义算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wangbanban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群数据就是相对于大量常规数据而表现出异常数据模式的数据点。许多数据挖掘方法致力于减少离群数据的影响或者将它们彻底清除,这样处理可能导致隐藏在离群数据内部有用信息的丢失。离群检测就是利用数据挖掘、机器学习、统计学、智能计算、可视化技术等数据处理技术来发现数据集中的离群数据和产生这些数据的机制,为用户提供对数据深入的分析。离群数据检测目前已经成为数据挖掘领域中一个重要的的研究方向,近年来取得了丰富的成果并开始成功地运用于多种领域,尤其是用于检测数据集中非理性的或异常性的数据行为,如金融欺诈检测、网络入侵与异常检测、过程监控与识别、超谱图像异常检测、医学非正常反应分析、异常信号检测等领域,因此离群数据检测与分析具有十分重要的学术意义和广阔的应用前景。然而,面对日益复杂的海量高维数据集,如何快速准确地检测出异常数据并分析导致异常的原因(离群释义)成为一个具有挑战性的课题。本文对离群检测和离群释义中的相关理论和方法进行了研究,并做了实验进行验证。论文的主要工作和成果如下:①对基于聚类的离群检测算法中的真实聚类数目选择对离群检测的效果影响做了分析与研究,并提出了基于自动聚类方法的离群检测算法。本文提出的算法分析两阶段,第一阶段为聚类,第二阶段为离群检测。在第一阶段中,首先利用减法聚类方法获取真实聚类数目的粗略估计值,然后利用聚类验证指标作为聚类评价的标准,并搜索最优聚类数目,利用获得的最优聚类数目进行聚类。在第二阶段中,利用聚类结果结合基于聚类的离群因子定义进行离群检测,将每个数据对象的离群因子作为离群度量。本算法通过获取最优聚类数目对提高离群检测的效果有明显提高。②针对类别属性数据集无法使用连续数值型的离群检测方法,本文提出一种基于云模型的离群检测算法。首先利用云模型的前向云生成算法,将每行记录转换成“云滴”,然后根据“云滴”隶属于云模型的确定值作为离群度量。基于云模型的离群检测算法可以采用无监督和监督的模式进行。③针对离群释义进行了初步研究,提出如果在全属性空间中的某些属性子集上能够发现与全属性空间中发现的离群数据接近,称这样的属性子集为离群释义子空间。离群释义子空间是离群释义研究中的一个方面,能够部分解释产生离群数据的原因;另外对于以后海量数据检测离群数据,可以直接在离群子空间上进行。由于查找离群子空间的时间复杂较高,本文提出一种基于幂图剪枝的离群子空间搜索算法,并基于粗糙集的概念提出基于属性约简的离群检测方法,并通过实验验证其有效性。④针对离群释义子空间进一步进行分析,提出离群关键子空间的概念,离群关键子空间类似于属性约简中的核概念,是离群数据产生的必要但是非充分条件。本文提出一种基于张量空间的离群关键子空间的搜索算法。算法首先根据已有的离群数据作为中心,通过共享最近邻相似度搜索其最近邻集,通过最近邻集扩张一个数据空间,并在这个数据空间的属性子集上进行局部离群检测。该算法通过张量空间的方式,避免了在原数据整个空间上搜索的时间消耗;并且在克服“维度灾难”影响方面使用共享最近邻相似度,保证了算法的精确性。
其他文献
本文在深入研究沙产业内涵的同时,对阿拉善右旗沙产业发展进行分析,以阿拉善肉苁蓉产业为切入点,采用管理学战略分析方法中的SWOT分析方法,以阿拉善右旗肉苁蓉产业发展为研究
在当前网络传输的媒体数据中,可能含有使用隐写术方法隐藏的隐秘信息。隐写术通过使用正常的媒体数据对信息进行伪装,达到隐秘通信的目的。由于隐藏在媒体数据中的隐秘信息具
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近期,全球领先的应用交付基础架构解决方案提供商思杰系统公司宣布推出目前业界最先进的解决方案—Citrix Recently, Citrix Systems, the world’s leading provider of
无论是配套的设备制造商、耗材供应商还是加盟商以及消费者,在感受卡柏的特色时,都会不约而同地想到这么两个形容词“务实”“专业”,这个看似简单的评语,其含义并不简单。
面对依靠电池供电的便携嵌入式移动设备在能量使用方面受到的严格限制以及电池技术的发展速度远远落后于集成电路发展速度的现状,低功耗嵌入式系统设计已经受到学术界和工业
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
路遥对于中国当代文学改革开放四十年而言,无疑是一个重要的现实存在。重读路遥,应从苦难读起;重读路遥,需要弘扬理想主义和重新理解现实主义;重读路遥,需要继承其文学遗产和
近年来,随着Internet的快速发展和普及,在网络上存储、传播着海量的信息和数据,尤其是图像和视频。因而,按照语义快速方便地分类和检索图像越来越重要。但是,由于光照、尺度