基于随机森林的不平衡特征选择算法

来源 :中山大学学报(自然科学版) | 被引量 : 0次 | 上传用户:ren_lian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据高维不平衡是当前数据挖掘的挑战。针对传统特征选择方法基于类别平衡假设,导致在不平衡数据上效果不理想的问题,利用随机森林内嵌的变量选择机制,构造了一个新的不平衡随机森林特征选择算法IBRFVS。IBRFVS在平衡的取样数据上构造多样决策树,采用交叉验证方式获取单棵决策树的特征重要性度量值。各决策树的权重和特征重要性度量的加权平均决定了最终的特征重要性序列,其中,决策树的权重由该决策树与集成预测的一致性程度决定。在UCI数据集上的随机森林超参数选择和预处理对比验证实验中显示,四种超参数K经验取值中,当K的取值为特征数的平方根时,IBRFVS性能较为稳定且优于传统特征选择算法。
其他文献
钢箱梁拼装、顶推工艺在桥梁工程中被广泛应用,对于优化桥梁施工质量,强化路桥工程安全性具有重要意义,需要做好施工过程的技术控制.文章结合实际的施工案例,从拼装平台搭设
进入新时期以来,得益于我国经济社会高速增长,建筑行业迎来了发展的春天,技术领域不断的向前发展。然而我们在面对当前建筑行业所取得巨大成就之时,也不得不直面建筑工程渗漏水事
在城市道路建设中,道路设计发展较早,城市理念设计也在不断变化。随着国内经济的不断发展,城市道路建设为了推动城市发展,同时为了有效满足城市车辆出行需求,城市道路规划设
节能能源是我国的基本国策,建筑节能是我国节能工作的一个重要领域。严寒地区建筑物墙体节能是建筑节能的关键,而选择一种在严寒地区适用的墙体保温的施工方法显得尤为重要。
我国连锁零售药业近年得到较快发展,但与消费者的服务要求还存在较大差距。本文旨在研究连锁零售药业中服务质量、关系质量与重购意向的关系,及生活型态的调节作用。通过理论
随着我国经济和科技的进一步发展,智能配电网通信组网技术也有了提高,这在一定程度上推动了我国社会的发展。智能配电网可以提升我们对于用电需求的体验,我们对于它也有更多
作者观察了淡水青虾在实验室条件下幼体发育的情况。在幼体发育的全过程中,有的个体蜕皮9次,有的蜕皮11、14次。本文是描述蜕皮9次的个体的发育情况。从第一至第九期幼体以及
本研究以枣庄八中59名高二学生为研究对象,对Horwitz的语言学习观念问卷(BALLI)进行了修改,设计了一份含27个问题的调查问卷,涉及学生外语学习能力、语言学习难度、语言学习
随着生产技术的不断发展,我国的配电网也得到了快速发展,智能配电网被逐渐运用到配电网过程中。本文将对传统的配电网、数字配电网以及智能配电网这三个不同的发展阶段的信息
随着现代经济的快速发展,配电网发挥的作用越来越重要,如何保证配网的正常、稳定运行成为电力工作者面临的主要问题之一。在实际中,配电网因故障而瘫痪的情况时有发生,因此,