不平衡分类问题中的去噪混合采样算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:sycloverock
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域中,不平衡分类问题一直是研究热点。一般的分类算法在解决平衡数据集分类问题时能取得很好的分类性能,但在处理不平衡分类问题上面临着巨大的难题。例如在医疗诊断、信用卡诈骗检测、机械故障检测问题中,关注的类别在整个数据集中的占比很小,但是其被错分的代价难以估量,因此提高少数类的分类精度在不平衡分类问题中非常重要。另外,部分分类算法对噪声点较为敏感,在某类样本数量绝对稀缺的前提下,难以区分样本与噪声,这是在不平衡分类问题上难以达到理想效果的另一个原因。对不平衡数据分类的研究集中在数据层面和算法层面,数据层面通过降低数据集的不平衡率以适应传统的分类器,算法层面则通过增大少数类样本的错误分类代价以提高识别效果。本文从数据层面对噪声和不平衡分类问题进行研究,具体内容如下:(1)提出了基于密度的去噪混合采样(Hybrid Sampling under Denoising Based on Density,HSDBD)算法,该算法首先通过Borderline-SMOTE算法将少数类样本生成三部分:噪声样本集、边界样本集和安全样本集。对噪声样本集予以剔除,并对边界样本根据密度分布设置权重,采用更加合理的方式生成新的少数类样本。与此同时,基于一种改进型的不平衡数据欠采样算法对多数类样本进行筛减,该算法起到明显去噪作用的同时保留了信息量高的多数类样本。实验表明HSDBD算法能够有效的解决不平衡分类问题。(2)提出了基于聚类的去噪混合采样(Hybrid Sampling under Denoising Based on Clustering,HSDBC)算法,在剔除噪声的前提下对数据进行均衡化处理。该算法首先利用基于K-means的离群点检测算法将离群点剔除,并将训练集分成若干簇,每簇样本都具有不同的不平衡率。根据每簇的不平衡率的大小,精细化地采取不同的采样方式。通过评价指标AUC、F1和G-mean检验分类性能,表明HSDBC算法提高了少数类样本的分类性能。
其他文献
随着IEEE 802.11标准的推广,无线网络在室内环境的覆盖率逐年增加,由此带来了新的可探索空间——基于无线局域网(WiFi,Wireless Fidelity)信号的特征提取感知室内空间中的变化,例如室内人员入侵检测、呼吸检测、心率检测等。利用WiFi信号进行室内定位的研究也成为近年来研究的热门。一些基于室内定位的服务也逐渐应运而生,如学校或公司里的签到系统、商场里利用公共WiFi在商铺附近投
作为下一代云计算系统的发展趋势,移动边缘计算(Mobile Edge Computing,MEC)能够在网络边缘就近地提供高带宽、低时延的“边缘云”服务,弥补了移动云计算的不足。其中,用户委
图像超分辨率重构是指是根据输入的一幅或者多幅低分辨率图像来重构高分辨率图像。高分辨率图像通常包含更加丰富的信息,在满足人类对视觉效果需求的同时,也为图像处理中其他
目的:通过神经行为学检查Longa评分以及microPET-CT评估人脐血神经干细胞(human cord blood neural stem cells,HUCB-NSCs)经过动脉移植途径治疗脑出血大鼠的效果,并且探讨其可能的治疗机制。方法:选取健康成年的Wistar大鼠,采用二次注血/退针法制作大鼠脑出血的模型,造模成功的大鼠进行随机分组---实验组及对照组。实验组大鼠经左心室移植人脐血神经
随着图像处理和深度学习理论与技术的快速发展,视频监控系统得到了越来越广泛的应用,因此也产生了大量的数据,但是目前这些数据并没有得到充分有效的利用,因此造成了巨大的资源浪费。为了提高这些资源的应用效率和水平,本文立足于监控视频,开展了基于深度学习理论和方法的行人重识别研究,这对于增强现有的视频监控系统的性能,具有重要的理论意义和实际价值。行人重识别是指利用计算机判断出现在不同摄像机中的行人是否属于同
双向光纤网环是光纤通信网络的重要组成结构。在通信网络中,该结构可以有效避免线路故障。根据通信环的几何特性,节点间的需求可选择顺时针与逆时针两个方向传送。一个好的路由方案可以降低网络负荷,提高现有资源的利用率,由此产生了环负载均衡问题。给定一个环R=(V,E)及点对集合U,每个点对间有一个流量需求,将这些点对通过环上的顺时针路或逆时针路连接起来,环上连接边的负载为通过该连接边的点对流量需求之和,目标
超分辨率重建的目标是从低分辨率图像/视频恢复出相应的高分辨率图像/视频。作为典型的计算机视觉问题,超分辨率重建已经被研究了数十年。近年来,高清显示器的普及推动了视频
2015年生效的《中华人民共和国行政诉讼法》在其第53条规定了当事人对行政行为提起诉讼时可以对规范性文件提起一并审查,自此,我国行政诉讼规范性文件附带审查制度正式建立。但是,在对规范性文件进行合法性审查之前,首先要准确识别规范性文件,从而将其纳入规范性文件附带审查的客体范围之中。然而,在理论与司法实践中,规范性文件的识别均存在问题,主要包括以下几个方面:一、在行为类型方面,如何区分具体行政行为与规
近几年红外目标跟踪不断用于军事和民用方面。但是红外图像本身也存在模糊、对比度低、背景噪声大、细节不清晰等缺点,导致红外目标的特征难以被准确获取。一些传统的红外目
海洋孕育了人类的生命亦孕育出了人类的文明。海洋的波澜壮阔、气象万千、变幻莫测这些特点都使得人类为之着迷并将海洋视为自由的象征,同时也将从事海洋作业视为坚忍不拔、具有开拓进取精神的表现。中华文化中包含着丰富多彩的海洋文化,福建由于地理位置的原因在中国海洋文化中占据了异常重要的角色。福建海岸线蜿蜒曲折、岛屿繁多,并且位处东海和南海的海上运输交通要塞,历史上曾是海上丝绸之路与郑和下西洋的起点,也是世界海