一种基于混合重取样策略的非均衡数据集分类算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户：lzydcx

【摘要】

：

非均衡数据是分类中的常见问题，当一类实例远远多于另一类实例，则代表类非均衡，真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视，非均衡数据的分类问题已成

【作者】

：

谷琼袁磊宁彬吴钊华丽李文新

【机构】

：

湖北文理学院数学与计算机科学学院

【出处】

：

计算机工程与科学

【发表日期】

：

2012年10期

【关键词】

：

分类非均衡数据集预处理混合重取样 SMOTE 聚类 classification imbalanced dataset preprocessing

【基金项目】

：

基金项目：国家自然科学基金资助项目（61075063,61172084）,湖北省自然科学基金资助项目（2010CDB05201）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

非均衡数据是分类中的常见问题，当一类实例远远多于另一类实例，则代表类非均衡，真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视，非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点，是对传统分类算法的重大挑战。本文提出了一种新型重取样算法，采用改进的SMOTE算法对少数类数据进行过取样，产生新的少数类样本，使类之间数据量基本均衡，然后再根据sMO算法的特点，提出使用聚类的数据欠取样方法，删除冗余或噪音数据。通过对数据集的过取样和清理之后，一些有用的样本被保留下来，减少了数据集规模

其他文献

一种基于MA的无线传感器网络IDS模型研究

本文针对分簇式无线传感器网络的特点，将入侵检测技术与移动Agent技术相结合，提出一种基于MA的无线传感器网络入侵检测方案，采用多个Agent模块分布协作，运用一种基于聚类的入侵检

期刊

网络安全无线传感器网络入侵检测MAnetwork security wireless sensor network intrusion detectio

基于改进Double Tree算法的网络拓扑发现方法

DoubleTree算法是一种重要的IP级网络拓扑发现方法，极大减少了探测冗余，但该方法会产生大量的网络通信量，增加了网络负担。本文在DoubleTree算法的基础上，通过对全局停止集存放结

期刊

网络拓扑探测冗余DoubleTree通信量network topology probe redundancy DoubleTree communicat

文物保护宜纳入公益诉讼范围

近年来，我国文物事业取得很大发展，文物保护、管理和利用水平不断提高。但随着我国经济快速发展，文物保护与城乡建设的矛盾日益显现，文物保护的任务日益繁重，面临着一些新的问题和

报纸

从《辅行诀脏腑用药法要·汤液经图》看五行传变规律

《辅行诀脏腑用药法要》出自敦煌遗本,对研究汤液经法、伤寒论的演变传承,及经方的用药组方规律具有重要的学术价值。《辅行诀》汤液经法图中蕴涵着五行生克制化规律,结合《

期刊

辅行诀汤液经法图传变规律五行学说

产业经济学方法论述评

【摘要】产业组织理论是有关市场经济中企业行为和组织制度的学科。本文分析了产业组织理论的渊源及发展过程中的哈佛学派、芝加哥学派和新产业组织理论的主要观点、政策主张以及研究方法,并且根据信息化时代产业的变化运用模块化理论解释了产业组织理论的新发展。　　【关键词】产业组织理论;方法论　　[ 中图分类号 ]F 062.9 [ 文献标识码 ] A 　　[ 文章编号 ] 1673-5838-(2009)12

期刊

产业组织理论方法论

电视媒体与我国传统文化的传承、创新、引领——由《国家宝藏》引发的思考

随着《中国汉字听写大会》《朗读者》《见字如面》《中国诗词大会》等节目的热播,传统文化类节目变得炙手可热。今天的传统文化节目形态,正逐渐演化为一种集知识、新闻、综艺

期刊

《国家宝藏》传统文化电视引领文化传承

从居住地国角度看国际所得税税收损失的追捕问题

【摘要】世界各国对税收的法律规定有所差别,因此基于税源和税率的不同,造成了国际间所得税的双重征税以及税收超额和税收损失的出现。国际所得税税收损失的形成原因主要包括两个方面,其一是国外损失的影响导致税收损失,其二是全额扣抵法的使用导致国外税额抵扣额的超额。税收损失的追捕,其理论基础也就在于征税主体和纳税主体保护各自利益最大化的一个平衡点。面对所得税税收损失,居住地国通常会通过计算国外净收益的方法以排

期刊

国际所得税双重征税税收损失损失追捕

一种混合式机器翻译方法的分析研究

在机器翻译的研究中,混合式方法是一种好方法。本文的工作有两部分：第一部分提出新的句型转换的机器翻译方法;第二部分讨论近似机器翻译方法的改进,并对对齐处理、相似度计算

期刊

机器翻译改进方法句型转换近似算法machine translation improvement method syntactic transfer ap

麻黄连翘赤小豆汤治疗小儿湿疹

麻黄连翘赤小豆汤是《伤寒论》中治疗湿热发黄早期的经方,现代医家亦有用之治疗变态反应性疾病。李新民教授经常用之治疗小儿湿疹,紧扣其内郁湿热、外有表邪之病机,符合中医

期刊

麻黄连翘赤小豆汤小儿湿疹《伤寒论》

一种基于混合重取样策略的非均衡数据集分类算法

其他学术论文