论文部分内容阅读
煤炭在我国能源消费中占有很大比重,而大型国有煤炭企业在我国煤炭生产领域掌握着统治地位,为保障我国的能源安全、经济发展和社会稳定做出了突出贡献。为了提高企业的生产效率、降低企业运营成本、预防煤矿安全事故,煤炭企业纷纷建立了自己的信息化系统。但由于在建设时没有进行合理的规划,不同信息化系统之间数据不能共享,在企业内部形成众多“信息孤岛”。一些煤炭企业为了打破“信息孤岛”,陆续建立起了数据共享平台,但这些数据共享平台无法满足当前煤炭企业信息化系统中的海量数据处理需求。Hadoop是一个分布式系统基础架构,依靠集群的方式在廉价机器上提供高速运算和海量存储。Hadoop使运行和处理大数据更加方便,为解决煤炭企业数据中心存在的问题提供了一条有效的途径。论文通过对于煤炭企业数据中心所面临的大数据处理难题的研究和分析,首先建立了煤炭企业数据共享模型,该模型在Hadoop上建立一个数据仓库,从源数据库按照要求抽取的数据经过数据集成后存储于数据仓库中,通过向外提供统一的数据接口,为用户提供数据访问和数据分析的服务。其次,针对某煤炭企业的实际需求,以该煤炭企业的生产数据为例,完成了数据共享平台的设计。完成了Hadoop平台和服务器端数据模型的设计。对应用Sqoop进行数据抽取的过程进行了阐述。定义了数据清洗和转换的要求和方法。详细介绍了应用的并行FP-Growth算法的算法流程,并设计了几个简单示例应用。最后,对平台功能进行了力所能及的实现。依据设计要求,通过Sqoop将数据从源数据库中抽取出来,放入Hive数据仓库中。Hive和Eclipse集成,在Eclipse下编程实现数据的清洗、转换和加载。应用Eclipse调用Mahout的并行FP-Growth方法进行数据分析,并将结果保存在数据库中。将数据处理结果导入到平台数据库中,并基于Spring架构,在服务器端完成了示例应用的开发。基于Hadoop的煤炭企业数据共享平台,利用Hadoop平台采用成熟的开源的技术,拥有强大的处理能力和高稳定性,不仅提高了实现数据共享的效率,同时可以满足对这些数据进行分析和处理的需求,而且降低了企业数据中心的运营成本。该平台有效的解决了煤炭企业信息系统中普遍存在的“信息孤岛”和海量数据的问题,煤炭企业可以基于此平台进一步开发特定的功能应用,为企业生产经营提供帮助。