论文部分内容阅读
特征选择是目标识别技术的关键技术环节之一。特征选择按照和后续分类算法的结合方式可分为嵌入式、过滤式和封装式。本文主要研究过滤式和封装式特征选择算法。本文首先引用了M. Dash和H. Liu提出的特征选择框架,这个框架指出一个特征选择算法是由“特征子集生成”、“特征子集评价”、“停止条件”和“结果验证”四个部分组成的。基于这个框架,本文总结归纳了常用特征选择算法的搜索策略和评价准则。过滤式(Filter)特征选择算法的评价准则与分类器无关,论文研究了两种过滤式算法。第一种过滤式算法是ReliefF算法与一种基于特征相关性算法的组合式算法。ReliefF算法产生的特征有效性强,但可能存在冗余性;Mitra提出了一种基于最大信息压缩指标的算法,这种算法能很好的去除冗余特征,但也可能选择无效特征。依据两种算法的优缺点将二者组合在一起使用,组合算法产生的特征子集都是有效特征,而且不存在冗余特征。第二种过滤式算法是改进的HFR算法:针对HFR算法用于评估待选特征重要性的特征频数(CR值)与构造简单差异矩阵的参数有关这一不足,论文提出用特征的属性重要性度量(SGF值)代替CR值来度量待选特征重要性,改进了HFR算法。封装式(Wrapper)特征选择算法是评价准则与分类器有关的方法。本文提出了两种封装式算法。一种是基于分类结果矩阵的特征选择算法:首先受粗糙集相对差异比较表的启发,提出分类结果矩阵的概念,并将粗糙集中构造最小差异表(MDL)的思想应用到选择特征子集的过程中,实验验证这种算法性能良好,选出的特征子集不仅提高了分类器的速度,而且保证了分类精度。另一种算法是基于互补系数的特征选择算法:本文从特征对样本的分类效果的角度来度量特征之间的相关性,并提出互补系数的概念,然后在权值较大的待选特征中选择与已选特征互补系数大的特征。实验验证这种算法能够很好去除无效特征和冗余特征,并且与传统的封装式算法相比大大降低了时间复杂度。