基于划分和抽样技术的非平衡类学习算法

来源 :信阳师范学院 | 被引量 : 0次 | 上传用户:xuanchen21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡类问题是机器学习领域的一个重要研究方向,其表现为数据集样本类别分布的严重不平衡。在一些现实问题中,正确分类少数类样本往往比正确分类多数类样本更受关注,如在癌症检测问题中,只有少数样本为癌症样本,如何有效识别这些癌症样本更加重要。传统分类方法如k近邻、C4.5、朴素贝叶斯、支持向量机等通常试图学习具有高准确率的分类模型,这往往导致模型不能充分学习少数类样本的特征,进而忽略甚至错误分类少数类样本。针对该问题,本文提出两种非平衡类学习算法:(1)提出一种基于划分的非平衡类学习算法(ILDP)。在学习阶段,ILDP使用划分方法将多数类样本集划分为多个簇,并将每个簇分别与少数类样本集合并得一组新的训练集;ILDP在每一个训练集上学习一个分类模型;因此,ILDP构建一个包含多个分类模型的分类器库。在预测阶段,ILDP使用划分方法从分类器库中选择一个模型用于预测样本类别。(2)提出一种基于划分和抽样技术的非平衡类学习算法(ILDPS)。与ILDP一样,ILDPS使用划分方法将多数类样本集划分为多个簇,并将每个簇分别与少数类样本集合并得一组新的数据集。不同于ILDP,ILDPS将抽样技术应用到每个数据集上,以获得一个新的训练集,进而学习一个分类模型。因此,ILDPS也学习一个包含多个分类模型的分类器库。在算法ILDP和ILDPS中,划分方法有两个重要作用:充分考虑多数类中样本的局部性特征;获得相对平衡的训练数据集。在ILDPS中,抽样技术的主要作用在于进一步平衡每个训练集,进而学习具有更高泛化能力的模型。KEEL数据集上的实验结果表明,所提算法均能有效提升传统分类方法在指标recall、g-mean、f-measure和AUC上的泛化性能;ILDPS算法则进一步提升ILDP算法在非平衡类问题上的泛化能力,并优于其他高级非平衡类算法。
其他文献
运动想象是一种不需要实际肢体参与的大脑的想象活动,通过运动想象产生的脑电信号特征主要分布在大脑的感觉运动皮层,与躯体也有一定的对应关系,通过运动想象可以激活相应的
干旱是无法避免的灾害,水分的亏缺会直接影响植物的生长状况、存活时间。目前,城市淡水资源不断减少,地表硬化严重、热岛效应导致园林植物用水需求日益增长,在环境对园林植物要求不断提高的背景下,园林工作者亟待研究解决关于园林植物抗旱性的问题。研究不同种类植物应对干旱的策略,可对我们科学合理选择植物种类具有重要启示,为预测未来生态系统的动态变化、园林植物配置提供理论依据。本研究以安徽省合肥市常见园林树种黄山
上三角欠驱动非线性系统,也称前馈欠驱动非线性系统,它广泛存在于机器人、建筑、交通运输、航空航天等各个领域。欠驱动非线性系统是一类控制输入的数量少于系统自由度的机械
目的对第一胎足月活产满42天的妇女426人监测18个月,观察从产后42天起加强母乳喂养指导和提供计划生育优质服务对预防产后意外妊娠的效果,并观察纯母乳喂养期限与产后月经复
计算机图形学的一个重要研究方向就是真实感图形建模。它是实现虚拟场景中现实物体的重构,其应用已十分广泛,如游戏产业、影音产业、航空航天、医疗、军事仿真等方面,已经深入到生活中的方方面面。随着人们对于沉浸感、代入感等需求的不断提升,真实感图形建模算法也在不断改进。羽毛建模一直是真实感图形建模研究的重点方向,具有理论意义与实际工程价值。本文以真实感图形建模为背景,三维羽毛建模为研究对象,前人虽然实现了二
目的:探讨过劳跑步对脾气虚小型猪心肌组织中线粒体蛋白等的影响。材料与方法:应用随机数字表法将6只广西巴马小型猪随机分为对照组(3只)与实验组即跑步组(3只)其中对照组标
随着重点国有林区天然林停伐政策的实施和林业企业改革的展开,现阶段消费者更多地把目光从传统的林下经济产品转移到林业绿色食品上来。虽然林业绿色食品加工企业的营销绩效有所增长,但是其在品牌化程度上仍然有很大的改进空间,所以品牌化在林业企业中的研究已经成为现阶段学术研究的重点内容。本研究以品牌关系理论、品牌导向理论、消费者行为理论、竞争优势理论、品牌价值理论和营销渠道管理理论为指导,构建了品牌化对林业绿色
学位
十九世纪以来,计算机技术经过飞速的发展,已经越来越广泛的应用于我们的日常生产生活中,随之发展的还有通信网络。传统的控制系统已然无法满足时代的需求。因而,将传统控制系统结合网络而产生的网络化控制系统逐渐引起了海内外专家及研究人员的广泛关注,并在研究中出现了诸多成果。智能机器人的控制、无人艇的诞生,远程设备的操作都有着网络化控制系统的应用。网络化控制系统是通过利用通信网络将传统控制系统中的各个部分连接
随着设备的快速普及,移动应用的数量呈现爆炸式的增长。移动应用的快速增长,虽然刺激了互联网的持续创新以及功能的不断完善,为用户带来了绝佳的使用体验,但是也引入很多问题
目的:观察"养血荣任针法"对冲任失调型黄褐斑患者的治疗作用。方法:门诊纳入62例黄褐斑患者,随机分为针灸治疗组和西药对照组,每组各31例。针灸治疗组脱落3例,28例进入统计分