类别不平衡数据的集成学习研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：liyongguang9280

【摘要】

：

分类是机器学习的重要任务之一,传统的分类方法有一个默认的假设,就是数据集中各类别所包含的样本是均衡的,故传统的分类方法都是以提高数据集的总体准确率为目标的。但是在

【作者】

：

王晓芹

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2010年期

【关键词】

：

不平衡数据集集成学习重采样技术神经网络 BP算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分类是机器学习的重要任务之一,传统的分类方法有一个默认的假设,就是数据集中各类别所包含的样本是均衡的,故传统的分类方法都是以提高数据集的总体准确率为目标的。但是在现实生活中,经常会存在这样的数据,即某一类别所包含的样本的数量远远小于其他类别所包含的样本数量,我们称这样的数据为类别不平衡数据。在这些数据集中,人们主要关注的是小类样本的信息(少数类),但是传统的分类方法由于追求总体的准确率,很容易将全部样本判别为多数类,使得分类器在少数类样本上的效果变得很差。这样误分的代价是巨大的。类别不平衡问题由于其广泛的存在和自身的特殊性,已经成为机器学习和模式识别领域的焦点,是对传统分类方法的重大挑战。目前国际上对类别不平衡数据的研究主要集中在两个个层面:对数据集的处理和对分类算法的改进。对数据集的处理主要是用重采样的方法对数据集重构,改变原始数据集的分布,缩减其不平衡程度,主要方法有欠取样和过取样;对分类算法的改进主要是修改传统分类算法,使之适应类别不平衡数据分类,如代价敏感学习及基于Boosting的方法等。近几年也有学者提出将重构数据集和改进分类算法结合起来使用。对上述诸方法的研究已经取得瞩目的成就,在很大程度上改善了不平衡数据的分类现状,但是依然存在过度拟合、信息丢失等问题,影响了分类结果的可靠性和稳定性。因此,在不影响多数类分类精度的前提下提高少数类的识别率是一个很重要的研究课题。本文针对类别不平衡数据这一课题,从对数据集的处理以及分类算法的改进两方面展开研究,提出几种适合处理类别不平衡问题的新方法。本文的主要创新成果有:1.对数据集的处理:受级联结构的启示,提出了一种针对不平衡数据集分类的新方法,基于级联结构的Bagging分类方法(CasBagging)。该方法通过在每一级剔除一部分多数类样本的方式使数据集逐步趋于平衡,并应用欠取样技术得到训练集,用Bagging算法训练分类器,最后把每一级训练到的分类器集成为一个新的分类器。在weka平台上实现该算法,在10个UCI数据集上的实验结果表明,该方法优于原始Bagging和AdaBoost。2.对分类算法的改进:当用神经网络处理类别不平衡问题时,存在一个既定的事实,即少数类对误差函数的贡献要远远小于多数类的贡献,故训练出来的网络更倾向于识别多数类样本。针对这个问题,提出一种改进的反向传播算法WNN,在该算法中,首先根据样本所属的类别对其加权,少数类赋予较大权重,多数类赋予较小权重,然后重新定义了误差函数,使其在计算样本误差时考虑该样本的权重。在20个UCI数据集上的实验结果表明,该算法提高了少数类样本的识别率。3.提出一种不同于SMOTE方法的新型过取样算法NNSMOTE。采用非线性插值的思想,用神经网络为少数类合成新样本:对于每个少数类,首先找到它的k个近邻,然后用这些近邻作为神经网络的输入,训练出一个最大拟合这些近邻的新样本,作为人工合成样本参与到分类器的训练中。

其他文献

MR脑序列图像自动分割方法研究

磁共振成像（MRI）是利用人体内含有的大量氢离子在磁场内发生共振所产生的信号经检测和处理最终重建出图像的一种成像技术。MRI成像因其无创伤、无痛苦、很少受目标物体运动影响

学位

脑序列图像形态学重建磁共振成像图像分割

基于粗糙集的属性约简和核的快速更新算法研究

粗糙集理论是由波兰科学家Z.Pawlak在1982年提出的一种处理模糊、不精确知识和不完备信息的数学工具。该理论的特点是不需要任何先验的知识,或者任何附加的信息,就能有效地分

学位

粗糙集属性约简核增量式更新算法复杂度

CDMA核心网HLR网元MNO业务的设计与实现

中国电信进行重组收购中国联通的CDMA,取得了移动运营牌照,提出了把原有的133号段用户向189号段进行转网的MNO一卡多号业务。HLR (Home Location Register)作为CDMA核心网中

学位

HLRMNO一卡多号业务CDMA核心网

基于语义网的教学资源管理系统关键技术研究

由于传统的教学资源竹理系统对分布式异构知识的描述和获取具有一定的局限性,导致了学生选课的片面性、被动性和盲目性。为此,本文把本体和语义网等相关理念及其相关技术引入

学位

语义网本体Jena概念相似度

用于文档加密的Rijndael算法研究

随着计算机技术和通信技术的快速发展,电子文档的安全存储、安全处理、安全传输显得越来越重要。对电子文档保护的重要手段之一就是加密,将信息以密文的形式存储和传输,从而

学位

文档加密Rijndael分组密码不可能差分攻击

基于概率隐语义分析的人脸识别

人脸识别作为一种重要的生物识别技术，在很多领域有着广泛应用。目前国内外已经有了一些比较成熟的人脸识别技术，例如特征脸、本征脸、拉普拉斯脸等。然而人脸本身作为生物特征

学位

人脸识别概率隐语义分析特征抽取视觉词汇主题

具有自适应性的Storm任务部署与配置平台的研究

在大数据时代,我们正步入一个由数据驱动的经济社会,是否能够高效地、及时地分析海量数据变成了一个产业成功与否的重要前提。在海量数据处理环境中有很多需要在流式数据上进

学位

流计算Storm任务配置调度算法

基于近邻传播聚类的点云简化研究

三维计算机模型在逆向工程、计算机辅助设计以及计算机图形学等领域得到了广泛的应用,为产品的快速开发创造了条件。近年来,数字测量设备的快速发展使得我们能够直接得到物体

学位

点云简化近邻传播聚类均匀重采样点云拓扑计算

模糊积分及多分类器融合在医疗诊断中的应用

现有的医学技术对于一些特殊疾病比如帕金森的诊断还不是十分准确。尝试找到一种新的行之有效的辅助医疗诊断的方法应用于具体医学病例,确保现有诊断的准确性,进而推广这种思

学位

模糊测度模糊积分模拟退火多分类器融合

蓝牙网络中个性化信息服务的研究

近年来,随着移动设备计算能力增强,无线通信技术,无线定位技术以及微型传感器普及,如何为移动用户提供最适合的个性化的信息服务(已经成为新兴的研究热点。传统的信息服务是

学位

信息服务智能环境个性化定位蓝牙

类别不平衡数据的集成学习研究

其他学术论文