面向不平衡样本的Boosting分类算法研究

被引量 : 0次 | 上传用户:ding7881
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界数据分类的应用通常会遇到数据不平衡的问题。在不平衡数据集中,大部分样本属于“正常”类,称为负类,只有很少的一部分样本是“异常”的或者说是引起兴趣的,称为正类。通常,在数量上占少数的正类才是分类关注的重点,而且正类往往具有很高的错分代价。但是传统的分类算法是以整体精确度最大化为目标的,因此,其分类结果会偏向数量众多的负类,少数类的分类性能可能会很差。目前,针对不平衡数据分类问题主要工作集中在数据层面的重采样技术和算法层面的改进。重采样方法中最典型的是SMOTE算法。SMOTE算法是一种过采样方法,通过在特征空间上合成少数类样例来使数据集趋于平衡。算法层面提出的一种方法是Boosting集成学习算法,它关注那些“困难”样本,由多个弱分类器组合成一个强分类器。但是,SMOTE算法并没有考虑不同区域的少数类样本对少数类分类性能的贡献的差别,Boosting算法同等对待难以被正确分类的多数类和少数类,这在一定程度上阻碍了少数类分类性能的提升。本文从数据层面提出了一种区域有差别的过采样方法DSMOTE算,然后与Boosting算法相结合得到不平衡数据分类算法DSMOTE-Boost。该算法将少数类划分成安全样本、边界样本和孤立点,分别采用不同的采样策略,增加对边界样本的重视,通过设定不平衡率阈值考虑了孤立点价值;同时,提出了一种自适应调整边界样本采样倍率的方法,避免了盲目过采样。本文算法在多个UCI数据集上进行了实验,结果表明DSMOTE-Boost算法是有效的,获得了较好的少数类分类性能。
其他文献
分级基金作为中国基金行业的一项创新在中国市场上已经存在了7个年头,但其运作机理及市场营销近几年才被大家所接触认识。由于其在两类子基金中对风险与收益进行了重新分配,因
居民服务性消费正成为居民消费支出中的重要项目,居民服务性消费的不断增长对拉动内需,从而促进我国经济增长起到重要的推动作用。居民服务性消费的增长依托于第三产业的发展,而
在工商局、商业银行、中介组织等单位,存在大量企业信用信息资源,具有分散性、垄断性等特点。企业信用征集面临体制障碍、征信(企业信用信息征集体系,简称征信体系)法律法规
癌症严重威胁人民健康和生命,近年来癌症的发病率和死亡率不断增加,对于癌症的精确诊断和高效治疗是当前的研究热点。纳米技术融合医学、生物学、药理学、药学、化学、材料学、
使用无毒环保型凹印油墨是凹版印刷的发展趋势。但目前常用的塑料凹印油墨中使用的溶剂为有毒的甲苯,这不仅对操作及使用人员的身体健康造成了一定程度的损害,而且也不利于环
随着包装行业的不断发展,整体包装解决方案概念越来越流行.整体包装解决方案能够很好的整合中小型包装企业,相互间的良性协作能够很好的整合资源、优化产业链.目前主要分为三
在新型城镇化背景下,大型城市周边的乡镇社区在人文地理环境、人口结构、社区治理方法模式等方面有着自身的特点,在社区建设方面也面临着诸多新的问题和挑战。社区全媒体作为扎
随着现代科学技术的发展,自动测试系统受到各国越来越多的重视。作为新一代自动测试系统体系结构,AXIe体系结构在2009年由AXIe联盟提出。AXIe体系结构建立在AdvancedTCA基础之
直肠前突是造成出口梗阻型便秘的主要疾病之一.通过对72例直肠前突病人的临床观察及护理,总结出直肠前突的临床护理方法.具体阐述了术前术后的心理护理,病情观察,饮食调节,排
会议
本文简要介绍了汽轮机射油器在润滑油系统中的作用,并以200WM汽轮机应用较多的双射油器系统中多孔射油器为例对设计计算和制造后的性能试验进行总结。并分析了影响射油器性能