论文部分内容阅读
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。数据挖掘作为基于统计学习理论的新的学习技术,是近年来数据应用领域中相当热门的研究课题之一,已成为统计学、机器学习等诸多领域的研究热点,数据挖掘技术已成为大数据时代最热门的技术。因此,近年来数据挖掘理论得到深入研究,并在建模、预测与控制等诸多领域得到了广泛的应用。冲击矿压是引起煤矿微震的主要原因,是矿山井巷和采场周围煤岩体由于变形能释放而产生的以突然、急剧、猛烈的破坏为特征的动力现象[2]。即,井下煤岩体在开挖扰动下,应力重分布过程中煤岩体破裂会产生以弹性波形式突然释放的变形能,震级一般小于3级。煤矿微震发生的实质是煤矿岩体的非线性以及非连续性破坏的过程[3][4],具有典型的非线性非连续特征,因此,煤矿微震过程的复杂性导致一般的线性模型无法有效的预测微震灾害。本文运用数据挖掘技术去研究在高能量(JE4?10)情况下煤矿微震灾害的预测问题。数据集为波兰某煤矿每8小时监测一次的能量和脉冲的实时数据[5][6],选自UCI机器学习数据库中的seismic-bumps数据集。针对这些数据,以机器学习法中的k最近邻法、决策树、adaboost分类、支持向量机和随机森林为主,用五折交叉验证的标准化均方误差(NMSE)的大小来判断各种机器学习法结果的可靠性,比较各种算法的NMSE值和对数据集的预测精度来分析各算法的优劣性,并选出最适合的算法。采用R软件对数据集进行处理[7-9],实现五折交叉验证的NMSE和各机器算法建模分析的R语言编程。研究发现k最近邻方法、决策树、adaboost分类、支持向量机和随机森林对处理高能量煤矿微震数据都具有较好的误差容忍性,分类效果理想,其中随机森林对多样本、高维度的煤矿微震预测问题能很好的控制误差,预测精度高。关于高能量情况下煤矿微震灾害的预测问题,随机森林效果最理想。本文的研究得出,高能量震动事件是煤矿微震发生的必要条件,数据挖掘运用于煤矿微震的监测数据分析上是切实可行的,对煤矿微震监测数据进行数据挖掘,分析各因素间潜在的联系,找出煤矿微震的致灾机理和发生的规律。本文所提出的煤矿微震预测模型对微震事件虽然不能全部做出准确的预报,有一定的漏报和误报,但还是可以识别和预报出相当一部分煤矿微震事件,这为防震减灾工作提供了参考,也为数据挖掘应用于煤矿微震灾害预测提供了新思路。