基于均衡采样方法的数据不平衡问题研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:wuweiguowwg32691819
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对机器学习中的数据不平衡问题进行研究,提出了一种均衡采样的方法。该方法采取过采样和欠采样相结合的策略,使少数类数据增加的同时,多数类数据集相应地减少,当数据集相对平衡后再进行分类器训练,同时本文还利用了集成学习的思想对数据集多次采样并训练,得到多个弱分类器后使用投票方式进行集成,最终获得能有效解决数据不平衡问题的强分类器。实验数据选取University of California, Irvine (UCI)提供的abalone、balance、 mf-kar、mf-morph、mf-zernike、wpbc、haberman、car、pima、ionosphere和wdbc数据集,以及革兰氏阴性菌、革兰氏阳性菌和病毒三个蛋白质亚细胞定位预测数据集。采用针对不平衡分类问题的评价指标对实验结果进行分析。在UCI上的实验结果表明了本文算法在不平衡问题中的有效性和适用性。此外,在蛋白质亚细胞定位预测中,我们将蛋白质序列转化为数值特征向量,然后使用文中方法进行分类预测。实验结果表明文中提出的方法在数据高度不平衡时,依然能够有效地识别出蛋白质序列较少的类,其整体性能表现优于传统的不平衡分类算法。
其他文献
工艺过程测量数据是一切现代化工厂过程控制、优化、操作分析乃至经营管理的直接依据。因此,准确、可靠的测量数据是现代工业过程的基石。然而,在实际测量过程中,由于测量误
随着近年来半导体技术的快速发展,图形处理器计算速度和功能得到了极大的增强。由于通用GPU计算具有高度并行的特点,在处理矢量数据时拥有普通CPU串行计算所不具有的优势,因
研究面向应用的果实采摘机器人是实现果实收获作业机械化、自动化,保证果实的实时采收、降低收获作业费用,促进果实种植生产增效的重要途径;同时对于解决当前国家正面临的劳动
由于现代工业过程的复杂化、大型化、自动化,使得各个环节的可靠性要求更高,若一个环节出现问题,那么整个系统就可能出现崩溃,为此,对工业过程进行故障诊断变得越来越重要。而基于
广播发射机一般都设置在高山或偏远地区,为及时了解发射机的工作状态,降低工作人员的工作强度,加强对各个发射机的管理与控制,有必要研制工作可靠的发射机远程监控系统。本文针对
喷涂机器人在工业生产中具有广泛的应用,在出现了静电喷涂技术后,涂料转移率更是得到了飞跃性的改善。当前,喷涂机器人对汽车工业的飞速发展起到了不可忽视的作用。其中喷涂机器
为监控猪的行为,本文分析了视频帧图像中目标猪与周围背景特征的差异,从中提取出猪的二值轮廓图。对猪的正常行走、低头行走、抬头行走、躺卧这四种姿态提取Zernike矩特征,采用
近年来,电力电子器件的跟新换代,推动了多电平逆变器的飞速发展,这也使得人们在电能质量方面有了更高的要求。如何更好的改善电能利用率,提高电能质量,减少电路中的无功功率,是当下研究的一个热门课题。无功对供电网络的危害是有目共睹的,它不仅破坏电力系统的稳定性,使得系统安全运行系数变低,更会造成工业用电中功率因数的降低,增加用电成本,怎么对电网中的无功功率进行动态检测,并给予实时补偿是一个需要解决的问题。
随着城市车辆增多、驾驶员驾驶行为不规范,城市交通事故频发,造成巨大的人员伤亡及经济损失。统计结果表明,车辆驾驶员驾驶未能及时全面察觉所处环境的危险因素是各类交通事故的
煤矿环境复杂多变,造成了煤矿开采过程中的不安全性,经常导致恶性事故的发生。目前,我国的煤矿安全生产形势十分严峻,特别是近年来重大矿难时有发生,造成了巨大的生命和财产