随机支持向量机分类方法研究及其应用

来源 :成都理工大学 | 被引量 : 1次 | 上传用户:loop000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类问题一直是数据处理中的热点研究问题之一,不同算法在数据分类中都有其自身的特点。感知机算法能有效解决线性可分问题,文中通过分析其对偶问题,发现感知机算法因训练样本顺序以及参数初始化的不同都会影响超平面的确定。而最大间隔分类器——支持向量机解决了感知机的问题。同时,为了解决线性不可分问题以及噪声问题,引入了核函数和松弛变量,但也带来了大量的超参数,虽然合适的超参数可以让支持向量机具有很高的泛化性,但支持向量机对超参数的敏感度很高,需要大量调试。  而随机森林则无需深入调参,抗噪能力也很强,也能较好的解决线性以及非线性问题,但随机森林受弱学习器的影响,算法性能不是很高。  文章通过标准数据以及可视化案例,先分析了随机森林、支持向量机的优劣,提出两种算法的结合策略;又证明了随机森林和支持向量机的结合算法——随机支持向量机的可行性与优点,并且基于前面两种算法降低了算法复杂度。  文章最后将算法应用于西藏米拉山地区土壤地球化学分析数据,通过分析数据,并先用随机森林和支持向量机对其进行数据分类。在铜矿与非铜矿的分类中,支持向量机分类效果较好,但需要大量调参,随机森林效果不尽人意,但容易调参。随机支持向量机结合两个算法优点,在测试集取得了87.6%的准确率,既降低了算法复杂度,又使得分类效果较好。
其他文献
欧氏空间Ed中的一个集合X称为二距离集,如果对于X中任意两点P和Q,它们之间的距离只可能取两个非零值a或b.自从上个世纪的70年代以来,二距离集的势一直是大家广泛关注的一个问
技术效率是度量一个经济体创新能力和赶超能力的一个重要指标。本文利用两种方法对其进行对比研究。方法一是基于前沿生产函数的参数方法,方法二是基于分段参数型数据包络分
丹麦数学家H. Bohr于1925-1926年间建立了概周期函数理论。概周期函数是周期函数的一般化,具有优于周期函数的空间结构。在实际生活当中,概周期现象比周期现象更加普遍。从概周
血细胞在哺乳动物体内起着非常重要的作用。因此,动物及人体系统必须小心管理血细胞生产过程。正常的动物及人体内的血细胞不断地更新,同时各种血细胞的数量基本不变,这是由血细
Dirichlet除数问题是数论中的经典问题.令d(n)表示Dirichlet除数函数,则我们有D(x):=∑d(n)=x(logx+2γ-1)+△(x).Dirichlet首先证明了△(x)=O(x1/2).这里的指数1/2后来被许
许多物种处于濒临灭绝状态,如果我们不立刻采取有效的措施,我们将要永远失去这些物种。建立自然保护区来保护濒危物种已被各国所广泛应用,事实表明这是比较有效的方法之一。本文
紧缩极化是一种新的合成孔径雷达(SAR)工作模式。由于紧缩极化SAR幅宽远大于全极化SAR,且极化信息远比单极化SAR和双极化SAR丰富,在海上交通运输,渔业管理等领域应用潜力巨大
众所周知,矩阵不等式是矩阵理论中一个非常重要的概念,在数学理论中占有很重要的地位.它不仅渗入到数学的各个领域,还在力学、控制论、信号处理、通信工程、系统工程等学科领域
无单元Galerkin方法(EFG)是无网格方法的一种,具有重要的研究价值。本文介绍了移动最小二乘近似方法(MLS),以及基于MLS的EFG方法及其原理。并将此方法用于解决一类椭圆型微分方