基于不平衡数据分布的加权极限学习机算法研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:binghemiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类问题在数据挖掘领域占有重要的地位,如何有效处理不平衡数据已然成为当前的一个研究热点。采用传统的分类模型时,数据的失衡往往造成分类面的偏倚,导致难以得到令人满意的分类效果。现今,国内外学者相继提出了多种用于解决类不平衡问题的方法,但并没有充分考虑到数据的分布对分类模型性能的影响。针对传统模型出现的偏倚问题,本文基于代价敏感学习的思想,充分讨论了数据分布特性对分类器性能的影响。同时,本文基于样本数据的先验分布特性对数值型数据和图像数据的二分类及多分类不平衡问题分别展开了研究。主要研究工作有以下两方面:(1)数值型数据指经过人工筛选数值化后的数据,可直接用于分类器学习,而传统的分类器容易对多数类产生更大的偏好,造成对少数类的分类准确率下降。对此,本文提出了基于数据分布的加权极限学习机D-WELM(data distribution based weighted extreme learning machine)。该算法基于代价敏感学习,不仅考虑了样本类别数量的影响,还有数据分布的影响,同时,把全局损失考虑在内设计了一个新的加权方案。为了验证D-WELM算法的可行性和有效性,本文在包括二分类和多分类的多个不平衡数据集上进行了对比实验。实验结果表明,DWELM在不平衡分类问题中可以表现出更好的分类性能。(2)图像数据一般呈现规模大、维数高的特点,若是直接运用简单模型则不能得到好的效果,若是运用卷积神经网络CNN,则可以完成对图像特征的有效提取。本文针对图像的不平衡分类问题,提出了基于卷积神经网络和数据分布的加权极限学习机CNN-DWELM。该算法同样基于代价敏感学习,同时结合了CNN对特征提取的优点和ELM训练速度快、分类精度高的优点。通过在3个数据集上的实验对比,结果表明CNN-DWELM具有更好的不平衡图像分类能力。
其他文献
近些年来,随着科技的不断发展,智能时代越来越让人们觉得是可触摸得到的,各个互联网公司的研发技术各个层出不穷,各种APP软件也就随之暴涨,数据的存储就成了问题,而云存储的
随着科学发展和工程技术的进步,现实生活中出现了各种各样的大型复杂结构。这些大型复杂结构的数值分析和优化设计需要大量的数值计算能力。传统的串行程序进行数值分析中计
迷走神经作为十二对脑神经中行程最长、分布范围最广的混合性脑神经,可调节循环、呼吸、消化三个系统。近年来,迷走神经刺激术(Vagus Nerve Stimulation,VNS)在治疗癫痫、镇
碳纤维复合材料(CFRP)因其优异的力学性能而被应用于各领域当中,对于汽车领域而言,可以实现汽车的轻量化,从而降低油耗。但CFRP要应用于汽车上必须具备优异的承载性能,且承载
当前我国高等教育已经进入到提高质量、内涵发展的新阶段,提高本科教育教学质量是高等教育的永恒话题。教育部对普通高校开展的本科教学审核评估是新形势下对高校本科教育教
高校教师是高等教育发展的核心力量,对于我国人才总体水平提升具有非常重要的价值。建设一支业务精湛、充满活力、师德高尚、结构合理的教师队伍,是有效促进我国高等教育内涵
方向图综合技术被广泛应用于雷达、声呐等领域,是大型天线阵列设计的关键问题。在雷达应用中,大型天线阵列通过方向图综合技术实现对空间中某些角度区域的增强,对其他区域的
球磨机是水泥生产行业的物料粉碎设备,由于缺乏可靠的磨机负荷检测手段,使得球磨机长期处于高功耗、低效率的工作状态下。并且球磨机在工作时,无法在其内部安装负荷测量装置,
未来移动网络数据传输量将呈现爆炸式增长,而地面通信资源紧缺,急需向空间拓展新的通信维度,否则将造成通信性能瓶颈等问题。为了解决该问题,可以利用移动性高和具有视距传输
片上网络(Network-on-Chip,NoC)作为一种新的通讯架构,相对于传统总线具有并行度高、扩展性强等特点。片上网络启用流量拆分带来了多路径路由功能,显著地增加了链路带宽。然而,