数据挖掘技术在传统煤矿产业中的应用

来源 :课程教育研究·新教师教学 | 被引量 : 0次 | 上传用户:ronglao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着数据挖掘的兴起和蓬勃发展,该技术对于大数据的分析和处理能力吸引了众多研究者的关注。除了互联网、移动互联网等新技术领域,很多传统产业同样需要数据挖掘方法解决实际生产问题。本文首先介绍了数据挖掘常见的基本算法,然后以电子商务和用户节点特征挖掘为例,介绍了数据挖掘技术在煤矿产业中的应用场景和具体方法,旨在启发更多的传统产业通过数据挖掘手段加快信息处理过程,提高信息整合效率。
  关键词:数据挖掘;煤矿产业;电子商務;节点特征挖掘
  一、引言
  数据挖掘是一个年青的、动态变化的、生机勃勃且快速成长的领域,该技术是在当前大量数据日积月累的时代背景下应运而生的[1]。“数据挖掘”一词有广义和狭义两种理解:广义的数据挖掘等同于知识发现过程,共包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示七个步骤;狭义的数据挖掘是知识发现过程中的一个基本步骤。本文的“数据挖掘”更像以上步骤中的第五步,但在此之前通常需要对获取的数据进行清理、选择或变换等预处理操作,为挖掘阶段做准备。
  随着数据挖掘技术的兴起、发展与成熟,很多研究者已将其运用到互联网、移动互联网、社交网络等各个领域,用于发现海量数据中隐藏的信息。事实上,数据挖掘对于大数据的分析和处理能力同样可以运用在传统产业中[2],本文将从煤矿产业角度出发,介绍数据挖掘技术在传统产业中的应用。首先,本文着重介绍数据挖掘常用的技术;其次,我们以电子商务和用户节点特征挖掘为例,介绍数据挖掘技术在煤矿产业中的应用场景,并总结在具体应用中常见的思路和具体方法。
  二、数据挖掘技术综述
  现实世界中的数据极易受到许多干扰,如噪声、缺失值、不一致数据等,低质量的数据将直接影响挖掘的结果,因此本章将首先介绍数据挖掘中常用的预处理方法。对数据中隐藏模式的挖掘主要通过监督模型和无监督模型实现。监督模型基于对数据的先验知识,分为分类和回归方法;而无监督模型用于对要挖掘的模式毫无先验知识的情况,分为聚类和关联分析方法。本章将以分类和聚类算法为例,具体介绍数据挖掘的基本思想[3]。
  1. 数据预处理
  数据预处理方法很多,一般分为四个步骤:
  数据清理:包括补全缺失值、光滑噪声、识别离群点、纠正数据不一致性。
  数据集成:把多种数据源的数据组合从而形成一个完整的数据集,这里的数据源可能包括多个数据库、数据立方体及一般文件。
  数据规约:通过聚集、删除冗余特征或聚类来降低数据规模,得到数据集的规约表示,而使得信息内容的损失最小化。
  数据变换:用汇总、聚集等方式,将数据变换为可挖掘的统一形式。
  2. 监督模型
  分类算法是监督模型中常用的算法,适用于数据集或数据集中的部分数据有标签的情况,它从每个数据元素都包含分类标签的训练数据开始,通过对训练数据的学习建立一个分类模型,用于将新的数据元素自动分类到训练数据提供的类别中。也就是说,数据分类是一个两阶段过程,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类别)。常用的算法有决策树、贝叶斯分类和基于规则的分类等[1]。
  决策树分类器:是从有分类结果标号的训练数据中学习,从而形成一种类似流程图的树结构,每个内部结点表示在某一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点代表一个分类标号。决策树构造的主要方法是自顶向下递归的分治方式。
  貝叶斯分类器:属于一种统计学分类方法,用于预测类隶属关系的概率。对分类算法的比较研究发现,朴素贝叶斯的分类结果可以与决策树和神经网络相媲美。
  基于规则的分类器:规则是表示信息或少量知识的好方法,基于规则的分类器是通过一组IF-THEN规则指导分类结果。IF部分表示规则的前提,THEN部分表示规则的结论。
  3. 无监督模型
  聚类算法是无监督模型中的常见算法,适用于数据集合不包含任何标签的情况,即每个数据元素的类标号是未知的。聚类是把数据对象集划分成多个组或簇的过程,使簇内对象相似性很高,但与其他簇中对象相似性很低。相异性和相似性是对结果的评估,主要用距离度量。如果数据源包含大量文本内容,对其进行聚类操作时,通常将文本关键词表示为矩阵形式,进而用余弦距离度量文本相似性。聚类算法可从多方面分类,如根据划分标准、簇的分离性、所使用的相似性度量和聚类空间等。下面介绍几种主要的基本聚类方法。
  划分方法:聚类分析最简单、最基本的方法是划分,它是把数据对象划分成多个互斥的组或簇的过程。具体来说,划分方法是将目标集合中的n个对象划分成k个分区,每个分区即代表聚类结果中的一个簇(kn)。
  层次方法:通过对数据集的层次分解完成聚类,分为凝聚聚类和分裂聚类两种。凝聚聚类是自底向上的,首先认为每个对象各自为一个簇,然后通过迭代逐渐把初始的小簇合并成越来越大的簇,直到所有对象成为一个簇,或满足某种终止条件。分裂聚类是自顶向下的,首先它把所有对象置于一个簇中,然后从根开始递归地把这些簇划分成多个较小的子簇。
  基于密度的方法:基于密度的方法在于弥补基于对象间距离的方法只能发现球状簇的缺陷,该方法可用于发现任意形状的簇。基于密度的方法把簇看做数据空间中被稀疏区域分开的稠密区域,当“邻域”中的密度超过某个阈值时,该方法继续增长给定的簇。
  基于网格的方法:上述方法都是数据驱动的,它们划分对象集并自动适应嵌入空间中的数据分布。而基于网格的方法采用空间驱动的方法,把嵌入空间划分成独立于输入对象分布的单元。该方法中的网格指多分辨率的网格数据结构,它将对象空间量化成有限数目的单元而形成网格结构,在该结构上进行所有的聚类操作。
  三、数据挖掘技术在传统煤矿产业中的应用   传统煤矿产业每天也产生着大量的数据,这些数据中同样隐藏着各类有价值的信息,通过数据挖掘技术可以帮助分析数据中暗含的隐藏价值。本章将以电子商务和用户特征挖掘为例,介绍数据挖掘方法在煤矿产业中的应用场景,并介绍具体求解思路和方法。
  1. 煤矿电子商务的数据挖掘场景
  当全球资源化越发畅通和普及,网络技术和信息的传播作为数据大幅增长的重要传载体,企业中产生了以电子商务领域为主的大量业务数据。如何满足企业运作的高效要求,是目前电子商务急需解决的问题,将数据挖掘技术完善地应用到企业电子商务中,也显得更为必要[4]。文献[5]从现在电子商务的的概念与特性讲起,介绍了煤炭交易的电子商务活动中的数据分析和运用特点,并针对这些特点引入数据挖掘技术概念,详细分析了煤炭交易中电子商务数据挖掘的类型及相关方法。这里我们将概括该论文的具体思路,论述数据挖掘技术在煤炭交易电子商务场景下的应用。
  煤炭交易电子是利用计算机技术、计算机互联网技术和通信技术,实现在煤炭交易的活动过程中的电子化、数字化和网络化。煤炭交易电子商务中产生的是基于计算机和Internet的Web数据,其具有鲜明的数据新特性:动态性、海量性和直接性。在电子商务的实际运用过程中,根据用户访问和顾客或企业访问产生的信息进行数据提取,大致可以分为3种数据挖掘的数据类型,即使用记录数据、内容数据和结构数据类型。相应地,基于Web的数据挖掘技术分为:使用日志或访问记录的数据挖掘模式、内容数据挖掘模式、结构数据挖掘模式。数据挖掘在电子商务的应用实现过程大致分为4个步骤:数据收集、数据预处理、模型评估、解释模型得出结论。
  2. 煤矿产业中的用户节点特征挖掘场景
  社交网络中有很多关于用户节点特征挖掘的研究,如对用户基本信息的挖掘、对用户行为和人格特征的挖掘、对用户兴趣喜好的挖掘等。这类方法同样可以借鉴到煤矿产业中,具体可以有两类应用:一是将员工看作用户节点,根据已记录的员工基本信息和工作信息,推断员工的工作习惯、兴趣爱好等隐藏信息,从而对员工有更深入的了解,有助于企业人文关怀的开展;二是将煤矿资源看作用户节点,根据已知的煤矿资源位置、属性及特点预测其他煤矿资源的信息,并帮助预测未发掘的煤矿资源位置。
  该场景最常用到的方法是统计分析、分类、聚类和推断学习。其中,统计分析是各类方法的基础,几乎所有的研究都需要首先通过一定的统计分析过程发现数据规律,进而根据这一规律建模求解。分类是已知要挖掘的用户节点标签类别时常用的一种方法,除了本文第二章介绍的基本分类方法外,神经网络、SVM支持向量机、遗传算法、瀑布分类器等也都是常用的分类方法。聚类是在要挖掘的用户标签类别未知时常用的一种方法,除本文第二章介绍的基本聚类方法外,实际中常用的还有模糊聚类、基于概率模型的聚类等方法。推断和学习算法是根据其他信息学习目标信息,常用的是基于概率或网络图谱的方法。
  四、结语
  在当今数据時代下,每天来自商业、社会、科学和工程、医疗以及我们日常生活的方方面面的数兆兆字节或数千兆字节的数据注入我们的计算机网络、万维网和各种数据存储设备。可用数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具,以便从这些海量数据中发现有价值的信息,把这些数据转化成有组织的知识。这种需求导致了数据挖掘的诞生,这一技术已经并将就在我们从数据时代大步跨入信息时代的历程中做出贡献。
  很多传统产业也开始利用数据挖掘技术解决生产过程中的实际问题。本文首先介绍了数据挖掘的常用基本算法,然后举例提出了在煤矿产业中可能的应用场景:一是将基于Web的数据挖掘方法应用到企业电子商务中;二是通过统计分析、分类、聚类和推断学习方法挖掘用户员工或煤矿资源的特征。事实上,数据挖掘理论在煤矿产业中的应用远不止这些,对生产资料的调控与分配、安全事故的分析和预警等同样可以通过数据挖掘技术解决。数据挖掘在传统煤矿产业的应用在为传统产业带来新机遇的同时,也为理论算法的进一步完善提出了新的挑战。
  参考文献:
  [1]韩家炜,坎伯.数据挖掘:概念与技术[J].北京:机械工业出版社, 2001: 232-233.
  [2] 董建新.计算机数据挖掘技术在煤矿行业的应用[J].煤炭技术,2012,31(004):87-89.
  [3] Barbier G,Liu H.Data mining in social media[M]//Social Network Data Analytics.Springer US, 2011: 327-352.
  [4] 劉振东.企业电子商务中数据挖掘分析及方法论[J].煤炭技术,2012,31(3):272-274.
  [5] 宋浩杰,赵浩婕.煤炭电子商务的数据挖掘技术应用[J].煤炭技术,2012,31(008):273-275.
其他文献
[摘要]在幼儿家长志愿者服务体系有效构建的实践研究中,我们尝试着展开幼儿园家长志愿服务,开展了多样化的家长志愿服务实践活动,期待获得“家园合作,互动双赢”的效果。通过 “安全护导”、“活动助手”、“爱心使者”和“家长助教”等丰富多彩的志愿服务活动形式,展开思考,探索志愿服务活动的目的意义,与教师、家长和幼儿发展的关系,促进幼儿园和家庭互动,获得共赢。同时也为课题的研究奠定基础。  [关键词] 幼儿
[摘要]随着现代社会科技发展和進步,我们已进入了互联网时代和手机网络时代,新媒体如博客、微信等的迅速发展,不仅改变了我们的学习与生活,也给高校党建工作带来了积极的因素。本篇文章阐述了大学生党建工作如何借助新媒体优势,创新大学生党建工作模式,为党建工作更好开展打开新的局面。  [关键词]新媒体时代 网络党建 模式创新  ·【中图分类号】D267.6  一、新媒体时代高校开展网络党建工作的必要性  (
摘要:动画产业作为一个新兴的并且蓬勃发展的产业,因此我国对动画专业人才的需求是非常大的,这就需要不断的培养专业人才。但是在我国的动画产业中出现了毕业生就业难和企业招专业人才难的“两难现象”,要解决这一现象就要不断的提升动画专业人才的实际应用能力,改善高校的动画专业的教学水平,而动画专业教学案例及电子教材研究和提升是高效解决这一问题的有效途径。本文分析了高校中动画专业教学案例及电子教材研究与制作,以
摘要:教与学、师与生的关系在当代职业教育教改中备受关注,从教育学原理、中外教育史研究到职业教育心理学研究、教学法研究、教学设计研究,都是为改善职业教育教学现状和教学关系而开展。本文围绕职业教育的教与学关系、职业院校教师队伍的现状和综合素质提升途径加以探讨。  关键词:职业教育 师资队伍素质提升途径  【中图分类号】G717  正文:  近年来,教与学的关系备受争议,教学改革中西合璧,师资队伍建设是
摘要:本文以西安交通大学城市学院为分析对象,對学院目前兼职教师的聘任与管理情况进行调研,收集相关的资料。采用定量的方法深入分析,为进一步加强兼职教师管理,提高学院教学水平提供理论依据。  关键词:独立院校、兼职教师、聘任及管理  中图分类号:G715.1  近年来,独立院校的发展十分迅速,在社会上受到广泛的认可和好评。而独立院校的发展壮大也使得自身师资力量严重匮乏,许多独立院校会从外校聘请大量的教
【摘要】:随着网络通讯技术的迅速发展,微博、微信等盛行于人们的生活之中,一种新兴的文化形态即微文化应势而生。本文在阐释微文化的内涵、特征的基础上,探讨了微文化对大学生思想政治教育特别是政治观培育的积极与消极影响,以期提高大学生思想政治理论课的针对性和实效性。  【关键词】:微文化;大学生;政治观培育  中图分类号:G641  基金项目:2014年辽宁省普通高等学校本科教育教学改革研究项目《微课在高
摘要:随着现代化教育水平的提升,应用多媒体技术辅助化学实验教学已成为普遍现象。这种教育方式比传统的教学方式更加能为乡镇学生带来兴趣和更加直观的感受,能够大力激发师生学习交流的主动性,提高了学生的创造性,从而有利于攻克学习中的重要知识点。在老师十分容易地完成教学任务的同时,学生在轻松欢乐的氛围中学习知识。  关键词:多媒体;乡镇中学化学实验;教学应用;影响  中图分类号:G633.8  一、创设促进
摘要:实践教学理念的更新、课程改革已经迫在眉睫,将FPGA仿真技术融入到课程教学中,有助于实践教学质量的提高,并且FPGA仿真技术的引入,在培养学生创新能力和动手能力等方面起着重要的作用,为传统的教学指明了方向。本文主要对FPGA在实践教学中的应用进行分析探讨。  关键词:FPGA;实践教学;应用  中图分类号:TN791-4  一、目前FPGA人才需求情况  随着电子信息产业和集成电路技术的发展