论文部分内容阅读
维数灾难问题是许多模式识别方法在实际应用中面临的主要问题,比如文本处理,图像识别。在低维空间里解析上或计算上行得通的方法,在高维空间里往往行不通。因此,降低维数有时就成为处理实际问题的关键。特征提取的任务就是求出一组有效的特征,把数据从高维空间变换为低维空间。 线性鉴别分析是最有效的线性特征提取和维数减少方法之一。线性鉴别分析方法的目标是通过最大化类间散度矩阵S_b,同时最小化类内散度矩阵S_w来提取特征。在许多应用中,线性鉴别分析被证明是十分有效的。但是线性鉴别分析依然存在缺陷:一是当样本维数很高时,类内散度矩阵为奇异的问题;二是它假设各类都属于Gaussian分布,并且各类的协方差矩阵相同,但一般情况下数据不满足这样的假设。 本文中,我们提出一种新的非参数边际距离最大化准则的特征提取方法,非参数边际距离最大化准则是一种从最近邻分类器的角度提出的线性特征提取方法。它不存在类内散度矩阵的奇异问题,也不需要假设每个类服从特定的分布。然后我们提出一种维数递减的优化算法。 我们成功地将非参数边际距离最大化准则应用于人脸识别,效果要好于目前流行的特征提取方法。 最后,我们进一步扩展非参数边际距离最大化准则,从信息论的角度提出信息边际距离的概念。我们同样不假设样本属于某个特定的分布,用非参数密度估计方法得到每个样本在不同类别里的概率密度,我们的目标是最大化类与类之间的相对熵,并且同时最小化每类样本的熵。实验证明,信息边际距离最大化准则要比互信息最大化准则和其它线性特征提取准则更有效。