随机森林算法处理不平衡数据的改进及其并行化

来源 :广东工业大学 | 被引量 : 14次 | 上传用户:hhy0412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林(Random Forest)是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的.每一棵决策树的建立,采用的是随机有放回采样的过程,然后使用投票的形式进行分类和预测.该算法很好的解决了单分类器在性能上的瓶颈,因此被广泛应用在很多方面.当然,该算法也存在一些有待完善的地方,针对随机森林算法在处理不平衡数据集时运行效率低下的问题,本文提出一种新的处理不平衡问题的方法,同时随着计算量呈现指数值的增长,如何提高预测速度和缩短运行时间,本文根据随机森林算法在构建过程中的特点提出了并行化的思想.本文在详细参考国内外文献的基础上,主要从两个方面对随机森林进行优化.一、对数据预处理的研究,提出一种新的数据预处理方法.针对随机森林算法在处理不平衡数据集方面的缺点和SMOTE算法在选取样本时存在一定的盲目性和容易边缘化的问题,本文结合K-means算法,在SMOTE算法的基础上,提出一种K_SMOTE算法K_SMOTE的主要思想是首先利用K-means方法找出原始负类的中心点,再根据SMOTE得出“新增负类”,将原始数据集中的负类全部替换为“新增负类”,再次利用SMOTE得出“新数据集”.实验结果表明该方法在随机森林算法上分类性能得到提升.二、基于Mapreduce框架的随机森林算法并行化研究.随着现代社会数据量呈指数增长,运用随机森林算法进行分类,不但需要花费大量的时间,而且分类性能也低下.在此背景下,本文根据随机森林构建单棵决策树互相独立的特点,同时结合Hadoop平台的分布式框架Mapreduce思想,提出将随机森林算法基于Mapreduce框架并行研究Mapreduce框架的主要思想是分而治之,将复杂的问题分解成若干个相同的子问题,相应的解决子问题就容易很多.具体到随机森林算法中,分而治之主要体现在,构建单棵决策树的过程的并行化处理,然后将组合构建好的多棵决策树进行投票.实验结果表明并行化的随机森林在时间和效率上都得到改善.
其他文献
本论文由两篇相对独立的文章组成:一、是一般拓扑学中《第一可数T2强半正规绝对闭空间的等价条件》;二、是模糊拓扑学中《Fuzzifying双拓扑空间中的连通性》.现对两篇文章的内
自然选择推动动物的进化,进而形成了动物赖以生存的觅食和生活方式,科学家们正是通过研究自然界的动物群体生活方式来获得解决生活中疑难问题的启发和灵感.研究者们发现,鱼类
由于半黎曼流形中类空超曲面在数学和物理方面的重要意义,一直被众多几何拓扑学家所关注.近年来,关于类空超曲面浸入到半黎曼卷积空间εR×f Mn(ε=±1)中的唯一性的研究吸引了