论文部分内容阅读
在当今这样一个信息爆炸的时代,有效的数据分析方法起着至关重要的作用。数据分析的目标是揭示蕴藏在数据中的规律或者知识,因此它几乎可以应用在人类生活的各个领域。从传统统计学领域的数据分析,到今天新兴的数据挖掘领域,数据分析的研究一直都受到广大学者们的关注。目前,学者们根据不同的原则已经提出了很多有效的数据分析方法,但对称性检测在数据分析中的应用并没有得到应有的重视。
本文主要探讨如何将对称性检测整合到已有的数据分析方法中以提高其性能。首先,对于聚类分析,我们提出了一种新的基于镜像对称的层次聚类算法SymHC,思路是利用数据集本身的镜像对称性信息导出合适的相似度度量,以更好地反映数据集的对称特征(如果存在),从而增强聚类的效果;在利用对称性对数据样本局部分布的均匀程度进行度量的基础上,我们提出了基于局部分布的离群点的概念,并相应地给出了两种检测算法LDBOD/LDBOD+;最后,我们尝试通过数据分布中的骨架点对原来的数据集进行聚类分析,从而提出了一种新的聚类算法SPBC,在提取骨架点的过程中,为了确定当前样本集的“形状”,我们又从局部对称性的角度提出了一种新的边界点检测算法SBBPD。
本文通过一系列的实验将所提出的算法和原有的各种算法进行了比较,从而评估了本文提出的算法的有效性,并且尝试将其应用于实际问题的解决,如网络入侵检测,基因芯片数据的聚类分析。