基于XGBoost与可见-近红外光谱的煤矸识别方法

来源 :光谱学与光谱分析 | 被引量 : 0次 | 上传用户:vacer2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
煤矸智能识别是实现综放开采智能化亟待研发的新技术;可见-近红外光谱技术具有环保、实时等优势,满足煤矸智能分选的要求。为解决基于可见-近红外光谱的煤矸识别问题,引入在数据科学竞赛中表现出色的极端梯度提升树(XGBoost)算法。搭建可见-近红外光谱实验平台采集来自山西西铭、陕西神木、内蒙古巴隆图煤矿的块状煤与矸石样品在370~1 049 nm波段的反射光谱;利用黑白校正、始末波段去除、 SG卷积平滑和标准正态变量变换(SNV)对采集的原始光谱进行预处理,以减少光照不均、噪声以及光程差的影响。依据三个煤矿煤与矸石样品反射光谱的差异划分实验组和测试组,实验组差异微小,用于对比不同模型的性能,挑选最佳算法;测试组差异较明显,用于测试最佳算法在其他煤矿下的表现,检验算法对不同煤矿的适用性。在实验组的实验中,首先基于XGBoost算法建立煤与矸石分类模型,并引入常用的机器学习分类算法k近邻法(KNN)、随机森林(RF)、支持向量机(SVM)做对比,结果表明XGBoost的表现最佳,十折交叉验证的平均准确度(ACC10)、分类准确度(ACC)与AUC值分别达到0.957 2, 0.970 5与0.971 6,体现出较强的稳定性与分类能力。其次为降低数据维度减少模型运算量,使用递归特征选择(RFE)、连续投影算法(SPA)与竞争性自适应重加权算法(CARS)分别进行特征波长的选择并与上述四种分类算法结合构建简化分类模型,经测试RFE与XGBoost组合的简化模型表现最佳,ACC10, ACC与AUC值分别为0.965 7, 0.980 3与0.980 3且数据维度降至9,在降低数据维度的同时提高了模型的稳定性与分类能力。在测试组的实验中,基于优选出的XGBoost与RFE-XGB算法建立的模型,同样可以实现对其他矿区煤与矸石稳定精确地识别,且简化模型表现更好,与实验组结果一致。
其他文献
本文主要阐述影响大学生绿色生活方式选择的因素,并对其影响因素进一步分析。从绿色生活方式这一词项出发,概述该词项的内涵以及特性。大学生群体数量多,将来工作分布地区广、流动性大,大力推进大学生绿色生活方式的发展,同时也是促进整个社会绿色生活方式的发展。通过问卷调查收集数据的方法,分析影响大学生绿色生活方式选择的因素,从而构建“大学校园绿色发展理念行动小组”,带动大学生践行绿色生活方式。
目的:1.了解中老年肺癌患者失志综合征发生现状,分析其影响因素;2.探讨中老年肺癌患者失志综合征与社会支持、医学应对方式和生命质量水平之间的相关性,为制定干预措施提供理论依据;3.深入探讨影响中老年肺癌患者失志综合征发生水平的重要因素,旨在引起相关医护人员对中老年肺癌患者失志综合征的重视,为临床制定中老年肺癌患者失志综合征的相关研究提供理论参考依据。方法:本研究为横断面调查研究,运用便利抽样的方法
为研究校园学生的消费行为规律,以校内食堂的学生微信消费记录为数据基础,结合数据挖掘技术对其进行研究分析,尝试挖掘出学生消费的行为规律。通过对原始数据进行预处理、计算相关系数、选取最佳K值和评估轮廓系数,采用K均值聚类算法找出不同消费行为的学生群体,研究分析其不同群体的消费行为规律特征。研究结果表明,该算法将学生分成了低中高水平的消费群体,得出了不同时段学生在食堂各楼层的消费习惯。
<正>石林彝族自治县位于云南昆明东南部。在石林地区生活的彝族支系较多,最为主要的有撒尼、阿细、黑彝、白彝、彝青和阿彝子等。其中,撒尼人口最多,占全县彝族人口的95%以上。对于传统火草布的纺织工艺,石林撒尼人至今还在沿用。火草,民间也称为火绒草。野生,属菊科大丁草属。在25倍的放大镜下观察火草叶背薄薄的棉状物,棉状物由白色、细长的丝交织而成,排列无序。可以轻易用手工把白棉
会议
实验目的:肝细胞癌(Hepatocellular carcinoma,HCC)是世界上发病率和死亡率最高的恶性肿瘤之一,给社会造成了严重的负担。因此探讨肝癌发生的分子机制对于降低肝癌死亡率具有重要的意义。细胞程序性死亡-配体1(Programmed cell death ligand 1,PD-L1)也称为表面抗原分化簇274(Cluster of differentiation 274,CD27
舞美统筹承担了剧目在创作生产、演出运营过程中舞台技术项目管理的角色。本文从实用角度出发,讨论舞美统筹岗位定位、工作流程两方面内容,总结在岗位实践中,其对舞台技术整体规划管理的有效应用方式。
农业发展受干旱影响极为敏感。为了为制定科学的应对措施和干旱缓解措施提供科学依据,利用NDVI作为基础数据,将植被状态指数(VCI)作为表征干旱的指标,通过分析VCI的变化趋势、计算干旱频率和干旱面积占比、分析VCI与降水量的相关性,探讨2000—2019年不同空间尺度甘肃省干旱的时空分布特征,并且结合土地利用类型分析了不同用地类型发生不同程度旱情的可能性。结果表明:甘肃省农业干旱高发于春季,其次是
背景和目的:截至2017年,全球乙肝肝硬化发病率为19.34/10万,标准化死亡率为4.78/10万。且亚洲大部分地区最常见的肝硬化病因是HBV感染。在肝硬化代偿期食管静脉曲张(Esophageal varices,EV)的发病率为50%-60%,在失代偿时高达85%。EV出血及再出血风险较高,是肝硬化的常见死亡病因。EV出血的风险主要取决于肝病的严重程度(Child B或C级)和EV的内镜特征(
目的:探讨射血分数降低的心力衰竭患者继发肺高血压后对其多普勒超声心动图指标、血生化指标以及预后的影响。方法:搜集河南省人民医院心内科及华中阜外医院自2018年6月1日~2019年6月1日期间住院的射血分数降低的心力衰竭(HFrEF)患者的资料。一般资料:性别、年龄、心衰病因,记录心功能分级(NYHA分级方法);多普勒超声心动图资料:左心房内径(前后径)、左心室舒张末期内径(LVEDD)、左心室射血
<正>新的产业形态也会形成一系列新的创意模式和传播路径,这是内容和渠道变异之后的必然结果。短视频已经渗透进人们生活的方方面面,如何对其有效监管、防止“野蛮生长”成为当下所有从业者面临的课题。随着2021年12月《网络短视频内容审核标准细则(2021)》(以下简称“《细则》”)的发布,短视频“二次创作”产生的电影电视剧版权侵权问题,也再度引发业内热议。短视频新规传递了哪些重要讯息?如何在短视频二次创
期刊