特征选择算法研究

被引量 : 0次 | 上传用户:lb19900527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是目标识别技术的关键技术环节之一。特征选择按照和后续分类算法的结合方式可分为嵌入式、过滤式和封装式。本文主要研究过滤式和封装式特征选择算法。本文首先引用了M. Dash和H. Liu提出的特征选择框架,这个框架指出一个特征选择算法是由“特征子集生成”、“特征子集评价”、“停止条件”和“结果验证”四个部分组成的。基于这个框架,本文总结归纳了常用特征选择算法的搜索策略和评价准则。过滤式(Filter)特征选择算法的评价准则与分类器无关,论文研究了两种过滤式算法。第一种过滤式算法是ReliefF算法与一种基于特征相关性算法的组合式算法。ReliefF算法产生的特征有效性强,但可能存在冗余性;Mitra提出了一种基于最大信息压缩指标的算法,这种算法能很好的去除冗余特征,但也可能选择无效特征。依据两种算法的优缺点将二者组合在一起使用,组合算法产生的特征子集都是有效特征,而且不存在冗余特征。第二种过滤式算法是改进的HFR算法:针对HFR算法用于评估待选特征重要性的特征频数(CR值)与构造简单差异矩阵的参数有关这一不足,论文提出用特征的属性重要性度量(SGF值)代替CR值来度量待选特征重要性,改进了HFR算法。封装式(Wrapper)特征选择算法是评价准则与分类器有关的方法。本文提出了两种封装式算法。一种是基于分类结果矩阵的特征选择算法:首先受粗糙集相对差异比较表的启发,提出分类结果矩阵的概念,并将粗糙集中构造最小差异表(MDL)的思想应用到选择特征子集的过程中,实验验证这种算法性能良好,选出的特征子集不仅提高了分类器的速度,而且保证了分类精度。另一种算法是基于互补系数的特征选择算法:本文从特征对样本的分类效果的角度来度量特征之间的相关性,并提出互补系数的概念,然后在权值较大的待选特征中选择与已选特征互补系数大的特征。实验验证这种算法能够很好去除无效特征和冗余特征,并且与传统的封装式算法相比大大降低了时间复杂度。
其他文献
水是构成机体的重要成分之一,是一切生命过程必需的基本物质。在人类生活和生命活动中具有极其重要的作用。因此,饮用水的卫生安全与否对机体的健康十分重要。随着水污染现状
湖南土家族"地花鼓"是由当地人民群众在长期的生产生活中所创造的民间歌舞艺术,是多种文化交融的产物,有着厚重的历史底蕴与艺术价值,是土家族代表性的民间舞蹈。但在"快餐文
论述了大数据技术领域的发展趋势,从资源、能力、业务3个层面阐述了大数据平台云化的必要性和可行性;然后,结合Amazon EMR/Kinesis、VMware BDE、OpenStack Sahara等典型案例
职业期望是人对某种职业的渴求和向往,是个体对待职业的一种态度和信念。大学毕业生选什么样的职业是与职业期望密不可分。研究大学生的职业期望,对于帮助师范类大学生合理设
根据2014年国内公开发表的文献,综述了我国工程塑料及改性塑料在机车车辆、电子电器、建材、机械设备、薄膜、医疗用品、环保及抗菌材料及其它领域的应用情况及研究进展,并介
《崇"严"尚"实":老一辈革命家的精神风范》是中共湖南省委党史研究室主任张志初同志为配合"三严三实"专题教育准备的辅导材料。该文以大量的珍贵党史材料,呈现了老一辈革命家
苏曼殊是近代中国最早的文学翻译家之一。他注重西方诗歌的译介 ,对拜伦非常推崇。他与域外文化有着极为广泛的接触 ,并善于汲纳外来文化中先进的思想。他对近代中外文化的交
淀粉样变是一种不明原因的淀粉样蛋白异常沉积于细胞外软组织而导致的少见疾病。淀粉样变累及多脏器,也可局限于某个组织或器官病变。据病变累及部位淀粉样变分为系统性病变
论文通过对国外生命意识教育情况对比,分析了建国以来人教版小学语文教材中对生命意识的渗透不足的基本现状。论文主要从生命意识理解的误区、社会环境整体上生命意识淡漠、