基于随机森林的自适应特征选择算法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:temp1229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决传统的随机森林算法在随机特征选择时,导致少数比较重要的特征变量被过滤掉的问题,以及没有考虑特征变量相关性对预测应变量准确性带来的影响,提出了一种基于随机森林的自适应特征选择算法SARFFS。该算法首先利用卡方检验样本间关联程度后自助采样,并设计出一种特征对类代表强弱程度的计算方法;然后引入自适应稀疏约束机制Group LASSO优化特征的选择;最后在Spark分布式计算平台利用UCI数据集进行实验,结果表明,相比传统的RF算法,SARFFS算法在特征子集选择上具有更好的性能,在F1上提升将近9%,从最终排名靠前的重要特征分析,提出的算法能够考虑特征间相关性对预测结果确实有影响,并有效地提高了随机属性权值的可靠性和稳定性。
其他文献
电路板自动光学检测中常通过检测电路板的边缘直线来确定其旋转角度和平移量从而完成定位配准,存在运算量大、精度不高的问题。对传统Hough变换检测直线方法进行改进,从图像
在能源资源日益短缺的背景下,寻找到能够更节省能源的照明方式成为了当前社会关注和研究的重要课题。因此,LED照明技术在这样的背景环境下应运而生,主要是由于LED照明具有高
输电线路杆塔的水平接地装置设计计算精确度关键之一,是对体形系数A式的合理选择。此文介绍了用电位系数法推导出的体形系数A式,分析了影响A值精确度的诸因素,提出了射线共交一点(或
此文从流体力学和热力学的基本方程出发,以“热态模型”为基础,提出相应的描述冷却塔内传热传质的数学模型和物理模型,并对方程组进行偶合求解;结合工程实际对冷却塔填料的布置形
在高速公路建设当中运用橡胶沥青路面,能够节约建设成本,并增强路面整体抗疲劳能力,延长高速公路整体使用年限,对推动交通运输行业的发展具有重要意义。为了充分发挥橡胶沥青
仲丁醇是工业生产甲乙酮的重要原料,具有重要的工业生产价值。仲丁醇传统生产工艺主要为水合法,该方法设备腐蚀严重,产率低,能耗高,因此寻找新的仲丁醇制备方法具有重要意义
龙山文化自20世纪30年代初,发现于山东龙山镇城子崖而命名以来,已有80年之久。河南的龙山文化,1931年梁思永先生在安阳最初发现后岗二层,称其为“后岗二期文化”。
文中综合考虑各种因素,计算出目标的温度场分布,并结合大气传输模型,建立目标的红外理论模型,实现红外辐射特性的计算。
随着全球化的不断推进,我国的对外贸易迅速发展。经济全球化为我国的对外贸易创造了巨大的发展机会,扩大了我国的外贸出口并且促进了我国外汇储备的迅速增加。针对我国外汇储
无人驾驶汽车转向控制单元控制转向系统工作,是实现无人驾驶的关键技术。本文介绍了一种结构简单、易于实现且工作可靠的无人驾驶汽车转向控制单元设计方案。无人驾驶汽车转