论文部分内容阅读
聚类作为一种重要的用于分析数据的方法,隶属无监督范畴。简单来理解,聚类就是将不同的未标记的数据划分成多个组,使它们拥有了类的信息。随着信息技术的飞速发展,用于聚类的数据源越来越广泛,而且数据也越来越复杂,这就需要用更多的属性进行描述,从而增加了数据的维度。对于高维数据聚类,因为数据本身的特点和传统聚类算法的局限性,使得我们无法取得满意的结果。为了很好地解决高维数据的问题,对它的研究成为一个主要方向是显而易见的。在已有的高维数据聚类算法中,主要的思想是先对数据进行空间划分或者降维,然后再用传统的算法完成聚类。在文章中主要研究了与降维相关的算法。传统的降维技术一般分为线性和非线性两类。线性方法只在少数情况下效果是理想的,由于多数情况下数据在高维空间都是非线性的,并且可能是高度扭曲的,所以非线性的降维方法成为人们关注的重点。而人工神经网络的出现提供了一种新的思路,它在非线性问题中发挥着良好的作用。本文对传统聚类算法和高维数据聚类算法进行了全面的介绍,包括它的基础理论和常见方法,同时阐明了二者所存在的缺陷和问题。我们的侧重点是高维数据聚类,所以对处理高维数据方法中的一种基于神经网络的算法进行了比较深入的研究,介绍了与之相关的内容和算法的优劣。因为神经网络的结构没有规律可寻,所以我们从网络的层数和每层的结点数的角度考虑,通过实验得到一种新的结构,使得在同一目标函数下优于原结构。鉴于传统聚类算法在处理高维数据时的困难,我们以找到的结构为基础,先实现数据从高维到低维的转换,然后再对降维后的数据用传统的算法进行聚类;比较对数据直接聚类和先降维再聚类两种情况下的实验结果,从而证明降维对高维数据聚类的有效性。降维时,如何选择数据要降到的维数也是面临的一个问题。在文中,我们用极大似然估计方法对数据的本征维进行了估计,并且计算在该维度下的聚类结果。同时也求得了降到其它维时的结果,对这些结果进行比较,以便我们能够知道数据降到多少维是合适的或者是大致确定一个范围。