基于随机森林和分类互补性的特征选择方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:fanjie51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在高维数据的分类问题上,为了选择可以很好地解释类别的最小特征子集,需要找到预测目标的相关特征,并通过发现特征之间的相互关系来去除冗余信息。现有方法通常从特征之间相关性的角度来考虑特征之间的关系,而忽略了它们之间存在的预测能力上的互补性。本文首先介绍了基于信息熵准则的过滤式特征选择算法,并分析了典型算法的优缺点,然后给出了基于信息熵的特征互补性的定义和计算方法;在此基础上,我们提出了基于决策树的特征互补性计算方法;并将其扩展到随机森林模型上,提出了基于随机森林的互补性计算方法;最后在基于随机森林变量互补性计算基础上提出两种特征选择算法:(1)基于信息熵的定义,提出了“最大相关最大互补”特征选择准则MRMC(Maximum-Relevance and Maximum-Complementariness),从特征与目标的局部相关性和特征之间互补性两个方面评估特征和特征子集。提出一种通过随机森林快速计算特征相关性和特征间互补性的方法。16个标准数据集上的对比实验表明,在选择小的特征子集时,基于MRMC的特征选择算法在分类性能和时间效率上都优于几种基准过滤特征选择算法CMIM、MRMR、DISR、JMI、JMIM和MRI;在分类性能方面则优于随机森林特征选择算法。(2)提出了基于谱聚类的最大相关最大互补特征选择算法Maximal information coefficient-Variable Complementariness Measure(Mic-VCM)和Gini-Variable Complementariness Measure(Gini-VCM)。为了使得到的子集里特征相关性和互补性都最大,基于随机森林得到互补性矩阵,并转换得到特征关联矩阵作为谱聚类算法的输入,从而得到k个特征簇;在每个簇中选择相关性最大的特征,得到包含k个特征的子集并输出。16个标准数据集上的对比实验表明,Mic-VCM和Gini-VCM算法在分类性能等方面优于几种基准算法。
其他文献
在高速铁路系统的实时混合试验中,可以将列车作为试验子结构用振动台加载,桥梁作为数值子结构用数值方法计算。列车试验子结构的控制往往要求精确计算,因此需要采用足够精细化的车和桥梁模型。这将导致模型规模非常大,计算极其耗时。另一方面,实时混合试验要求实时性,每一步的数值计算、数据交换、时滞补偿和作动器加载等环节需要在极短时间(如几毫秒)内完成,对于数值计算的速度要求很高。本文提出了一种高速铁路系统实时混
乙型肝炎病毒(Hepatitis B virus,HBV)感染导致急慢性乙型肝炎,并与肝硬化及肝癌的发生发展有关。HBV基因组为环状部分双链DNA,包含四个开放读码框(Open reading frame,ORF):P、C、S和X,其中X区编码HBx蛋白(Hepatitis B X protein)。HBx在病毒的复制和致病过程中发挥重要作用,但是HBx蛋白极不稳定,生成后在短时间内被快速降解。它
随着女性主义不断发展,各学科逐渐掀起对性别问题讨论的热潮。在我国的建筑与规划领域,女性与空间的研究也逐渐成为一种新趋势。由于生理、心理与行为的差异,女性表现出与男性不同的空间需求。居住空间是与女性直接相关的空间,然而在男权结构的社会中,女性很少参与空间设计,她们在空间中的地位也常常被忽视。如今,多元化、包容性成为现代社会的主要趋势,但在现实中,同质化的住区空间与性别差异产生的多样性需求的矛盾依然存
市政公用项目普遍存在建设规模庞大、限工期、多专业分包、高技术要求、施工环境复杂多变等特点,同人文、技术、材料、社会等因素一起可能增加项目工程的实施难度和进度控制难度。工程施工进度控制是民生项目是否及时惠民的技术保证,在进度控制应用于工程实践中起到点睛之笔的作用。如何运用实际可行的科学管理方法对工程施工进度进行控制,较好的处理并协调影响施工进度控制的多方面原因,是项目建设的核心关注点。本文从实际出发
黄海冷水团是黄海最重要的物理海洋现象之一,对黄海的物理、化学、生物过程均有重要影响。同时,可能对黄海生态系统造成严重威胁的黄海季节性酸化现象在近些年来备受关注。本文利用ROMS-CoSINE耦合模式模拟1995~2008年间黄海的物理、化学、生物过程,探究黄海冷水团和黄海季节性酸化的年际变化及其影响因素。本文利用EOF分析方法分析黄海冷水团的年际变化,发现黄海冷水团水温呈现出一定的上升趋势,不过,
超疏水玻璃涂层具有自清洁、防冻、防污、防腐蚀等优点,在建筑玻璃、汽车玻璃、太阳能电池等行业有着广阔的应用前景。但是,由于超疏水玻璃涂层需要同时具备高透光率、耐磨和超疏水三种性能,而这三者之间又存在相互矛盾的关系,目前为止,仍未有超疏水玻璃涂层得到实际应用。因此,如何在玻璃表面构筑出透明耐磨的超疏水涂层,使其性能达到平衡是超疏水玻璃研究的关键。本文从涂层的成分设计和结构设计两方面出发,利用相分离法和
随着半导体材料与器件的不断研究与发展,AlGaN基紫外发光二极管(light-emitting diode,LED)应用越来越广泛,在一些新领域也逐渐得到应用,目前在固态照明、消毒杀菌、水质净化等领域的应用已经很多,在3D打印等新兴领域的应用中还有很多潜在的价值。虽然AlGaN基紫外LED一直是诸多半导体工作者研究的热点,但在提升AlGaN基紫外LED光电性能尤其是更短波长的深紫外LED光电性能研
在桥梁长达几十年、甚至几百年的服役期内,在车辆荷载、极端荷载、长期荷载、环境腐蚀和材料老化以及突变效应等诸多不利因素的耦合作用下,其结构不可避免地发生损伤累积和抗力衰减,极端状况下甚至会导致一系列灾难性事故。桥梁影响线在结构损伤识别领域表现出良好的应用前景,但迄今为止,将影响线作为有效工具实现桥梁损伤程度定量,仍有不少关键性问题亟待解决。本论文围绕基于梁式结构影响线改变量的损伤定量方法及验证这一课
结构色是材料本身纳米级的微小结构使光发生衍射、折射、干涉等现象而产生的颜色,其颜色饱和度高、亮度好、不褪色、绿色环保,在各行各业中得到了广泛的应用。其中薄膜结构色以结构简单、颜色可控等优点在日常生活中最为常见。薄膜结构色由于其随角度变化而产生颜色变化的原因,测量方法不同于一般颜色测量。目前颜色测量在工业领域使用基于ASTM2539标准的8个角度测量方法,但是这种测量仍然不能完全的表征颜色,因此学术
运维是保证企业正常运行的一个关键环节,尤其是互联网企业,运维是其服务和工作中的重要组成部分。本质上,运维是对网络、服务器以及服务的生命周期各个阶段的运营和维护。AIOps即智能运维,基于运维产生的大量数据,结合大数据、机器学习、深度学习等技术,将运维场景智能化,是运维行业的发展趋势。通俗地讲,AIOps是对制定运维规则这一过程的智能化,即将传统的通过专家总结相关领域运维知识的过程升级为由机器自动学