论文部分内容阅读
数据分类问题一直是数据处理中的热点研究问题之一,不同算法在数据分类中都有其自身的特点。感知机算法能有效解决线性可分问题,文中通过分析其对偶问题,发现感知机算法因训练样本顺序以及参数初始化的不同都会影响超平面的确定。而最大间隔分类器——支持向量机解决了感知机的问题。同时,为了解决线性不可分问题以及噪声问题,引入了核函数和松弛变量,但也带来了大量的超参数,虽然合适的超参数可以让支持向量机具有很高的泛化性,但支持向量机对超参数的敏感度很高,需要大量调试。 而随机森林则无需深入调参,抗噪能力也很强,也能较好的解决线性以及非线性问题,但随机森林受弱学习器的影响,算法性能不是很高。 文章通过标准数据以及可视化案例,先分析了随机森林、支持向量机的优劣,提出两种算法的结合策略;又证明了随机森林和支持向量机的结合算法——随机支持向量机的可行性与优点,并且基于前面两种算法降低了算法复杂度。 文章最后将算法应用于西藏米拉山地区土壤地球化学分析数据,通过分析数据,并先用随机森林和支持向量机对其进行数据分类。在铜矿与非铜矿的分类中,支持向量机分类效果较好,但需要大量调参,随机森林效果不尽人意,但容易调参。随机支持向量机结合两个算法优点,在测试集取得了87.6%的准确率,既降低了算法复杂度,又使得分类效果较好。