【摘 要】
:
随机森林算法(Random Forest)是机器学习领域中一种普适性良好的数据挖掘方法。它在决策树算法的理论之上结合bootstrap重采样方法,集合多个单树型分类器,最后结果通过投票的
论文部分内容阅读
随机森林算法(Random Forest)是机器学习领域中一种普适性良好的数据挖掘方法。它在决策树算法的理论之上结合bootstrap重采样方法,集合多个单树型分类器,最后结果通过投票的策略进行分类和预测。随机森林算法具有理论易理解、调整的参数较少、抗噪声能力强,最重要的是在实际的应用中分类性能非常高和不容易过拟合等特性。随机性能良好以及不需要样本背景知识的性能让其在很多领域得到了广泛的实际应用,为此许多研究学者对随机森林进行了广泛的研究和改进。本文在分析国内外相关研究发现,随机森林算法的特征选择具有随意性,会导致忽略特征对类别的重要性以及特征与特征之间的相关性,同时随机森林的参数选择很难学习出最优参数组合并且参数选择过程效率很低。本文针对以上问题,从不同的视角在随机森林的特征选择和参数选择上做了一系列的探索和研究工作。本文首先对随机森林算法的综述进行阐述,分析了随机森林算法的随机性机制、性能指标以及存在的问题。然后针对随机森林算法特征选择的随机性,提出了自适应特征选择分类算法SARFFS,该算法首先利用卡方检验样本间关联程度后自助采样,并设计出一种特征对类代表强弱程度的计算方法;然后引入自适应稀疏约束机制Group LASSO优化特征的选择,进而解决了随机森林选择特征时的局限性;,该方法首先从粒子群的学习因子和粒子的位置对粒子群进行改进。针对粒子运动轨迹不同阶段的不同需求,基于学习因子提出了一种基于反正弦调整因子的策略。针对传统的PSO算法在更新粒子位置时,没有考虑到每次迭代过程中上下文对粒子的影响,本文对PSO算法的递推方程进行迭代更新,提出了新的递推公式,从而提高了算法的寻优能力。
其他文献
在众多身份认证方法中,生物特征认证技术由于其利用了人体本身所固有的特征,具有更高的安全性、可靠性和有效性,因此越来越受到人们的重视。以人脸为特征的识别技术是一种最容易
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量可供使用的数据,并且迫切需要将这些数据转换成有用的信息和知识。 进行数据挖掘的方法很多,粗集方法便是其
足球视频影响着人们的日常生活,人们对足球视频的关注更多地体现在对其中进球,射门,罚牌等精彩事件的关注。然而用人工的方法从大量的比赛视频数据中查找人们感兴趣的精彩事件是
当今互联网高速发展,人类社会迈入网络信息爆炸时代,这带来了网络上农业知识信息的激增,给农业从业者带来了农业信息查找的便利。知识意味着财富,农业从业者从这些农业信息中
随着信息技术与计算机技术的快速发展,消费者对企业的服务质量也提出了更高的要求。作为现代化的高等学校,更加注重生源市场及服务质量。因此,在高校招生办公室设立招生电话语音
随着互联网的急速膨胀,万维网上信息的增长远远超过人们的应付能力。难以定位、难以获取成为阻碍互联网信息利用的巨大障碍。搜索引擎作为一种方便易用的互联网检索工具致力
本文对基于ARM9的嵌入式Linux驱动程序开发与应用进行了研究。文章分析了ARM处理器和嵌入式Linux系统的显著特点和广泛应用,介绍了嵌入式Linux系统的开发过程包括交叉编译环境
随着基因组测序的完成,生物学研究进入到了后基因组时代,其关键领域之一是对揭示生命活动现象极为重要的蛋白质组学的研究。蛋白质是细胞主要组成成分,其承担着生物体的生命
现代远程教育是随着现代信息技术的发展而产生的一种新型教育形式,远程教育教学系统是远程教育的重要组成部分。目前的远程教学系统的设计与实现都基于C/S(B/S)技术。近来P2P
本文主要通过市场调研,结合电子商务专业特点,修订教学大纲,对课程进行整合,形成电子商务实践课程体系,同时为了配合课程改革需要,实现学生课堂与校内实习、实训基地一体化建设,课题