论文部分内容阅读
离群数据就是相对于大量常规数据而表现出异常数据模式的数据点。许多数据挖掘方法致力于减少离群数据的影响或者将它们彻底清除,这样处理可能导致隐藏在离群数据内部有用信息的丢失。离群检测就是利用数据挖掘、机器学习、统计学、智能计算、可视化技术等数据处理技术来发现数据集中的离群数据和产生这些数据的机制,为用户提供对数据深入的分析。离群数据检测目前已经成为数据挖掘领域中一个重要的的研究方向,近年来取得了丰富的成果并开始成功地运用于多种领域,尤其是用于检测数据集中非理性的或异常性的数据行为,如金融欺诈检测、网络入侵与异常检测、过程监控与识别、超谱图像异常检测、医学非正常反应分析、异常信号检测等领域,因此离群数据检测与分析具有十分重要的学术意义和广阔的应用前景。然而,面对日益复杂的海量高维数据集,如何快速准确地检测出异常数据并分析导致异常的原因(离群释义)成为一个具有挑战性的课题。本文对离群检测和离群释义中的相关理论和方法进行了研究,并做了实验进行验证。论文的主要工作和成果如下:①对基于聚类的离群检测算法中的真实聚类数目选择对离群检测的效果影响做了分析与研究,并提出了基于自动聚类方法的离群检测算法。本文提出的算法分析两阶段,第一阶段为聚类,第二阶段为离群检测。在第一阶段中,首先利用减法聚类方法获取真实聚类数目的粗略估计值,然后利用聚类验证指标作为聚类评价的标准,并搜索最优聚类数目,利用获得的最优聚类数目进行聚类。在第二阶段中,利用聚类结果结合基于聚类的离群因子定义进行离群检测,将每个数据对象的离群因子作为离群度量。本算法通过获取最优聚类数目对提高离群检测的效果有明显提高。②针对类别属性数据集无法使用连续数值型的离群检测方法,本文提出一种基于云模型的离群检测算法。首先利用云模型的前向云生成算法,将每行记录转换成“云滴”,然后根据“云滴”隶属于云模型的确定值作为离群度量。基于云模型的离群检测算法可以采用无监督和监督的模式进行。③针对离群释义进行了初步研究,提出如果在全属性空间中的某些属性子集上能够发现与全属性空间中发现的离群数据接近,称这样的属性子集为离群释义子空间。离群释义子空间是离群释义研究中的一个方面,能够部分解释产生离群数据的原因;另外对于以后海量数据检测离群数据,可以直接在离群子空间上进行。由于查找离群子空间的时间复杂较高,本文提出一种基于幂图剪枝的离群子空间搜索算法,并基于粗糙集的概念提出基于属性约简的离群检测方法,并通过实验验证其有效性。④针对离群释义子空间进一步进行分析,提出离群关键子空间的概念,离群关键子空间类似于属性约简中的核概念,是离群数据产生的必要但是非充分条件。本文提出一种基于张量空间的离群关键子空间的搜索算法。算法首先根据已有的离群数据作为中心,通过共享最近邻相似度搜索其最近邻集,通过最近邻集扩张一个数据空间,并在这个数据空间的属性子集上进行局部离群检测。该算法通过张量空间的方式,避免了在原数据整个空间上搜索的时间消耗;并且在克服“维度灾难”影响方面使用共享最近邻相似度,保证了算法的精确性。