论文部分内容阅读
特征提取是模式识别中的一个重要过程,如今,也在数据挖掘领域也有着广泛的应用。对于高维数据的数据挖掘,特征提取可以有效地对数据进行降维处理,从而降低算法的运算规模。相对于主成分分析,粗糙集等数据降维方法,特征提取更加系统化,也更加依赖与问题的具体应用领域,提出针对性的特征提取模型,得到的结果也更加具有参考价值。将支持向量机应用于特征提取中,可以结合两者的长处,优化特征提取的过程,是对特征提取方法的一种探索。本文针对最优特征子集选取的问题,进行了相关的探索研究。借鉴经典统计理论中的分位数的概念,将其引入特征选取模型,建立了分位数特征选取模型。另外,参考信息学中关于信息相对熵的概念和定义,建立了相对熵特征选取模型。在对特征候选集进行最优特征子集选取的过程中,本文依照分位数特征选取模型和相对熵特征选取模型分别建立了样本属性的可分性判别函数,并运用浮动序列前进算法找出不同属性个数下的最佳特征候选子集。最后,本文又借助于支持向量机的方法,将包含不同属性个数的特征候选子集对应的数据放入支持向量机,学习后进行判断,根据最后识别的错误率来判断该特征候选子集的优劣程度,从而得到最优特征子集。另外,通过在结肠癌患病和正常样本基因表达水平数据集上进行实验,来对上述特征提取模型进行了验证。本文将特征提取应用于数据挖掘领域中,所建立的特征提取模型依据样本的统计学特性以及信息学特性,这些模型的建立脱离了系统的具体应用领域,使其更具有普遍意义。