基于Hadoop的海量能耗数据挖掘

被引量 : 4次 | 上传用户:jeanndy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电信运营商支撑着整个社会的通信运营,大量的IT机房和通信基站无时无刻不在承载着海量的用户请求。近年来,随着通信行业的飞速发展,在业务量和服务逐年提升的同时,也给运营商带来巨大的能源消耗。如何对各类电信设备进行能源监控,并进一步利用能耗数据加以分析挖掘,帮助企业降低能耗、减少运营成本无疑是一个具有深远意义的问题。与此同时,运营商大量的机房、基站每天产生大量的能耗数据,如何对这些数据加以整理,提出行之有效的分析挖掘方法也是一个有挑战的领域。本文结合数据仓库以及Hadoop集群构建了一个海量能耗数据分析系统原型,对能耗数据进行多维度的分析,并实现了基于Hadoop的数据挖掘算法对海量能耗数据进行挖掘。本文主要工作如下:设计并实现了基于Oracle数据仓库和Hadoop的混合能耗分析系统。使用Oracle存储业务数据并进行OLAP分析,使用Sqoop工具进行Oracle和HDFS之间的数据交换,并利用Hadoop对大规模数据进行数据挖掘分析。系统采用Struts2框架来实现,并使用ExtJS进行前台界面展示。基于Hadoop实现了批量BP神经网络算法。该算法可同时对大量的神经网络进行训练,充分利用Hadoop的大数据处理能力,在系统闲暇时根据能耗历史数据基于一定的规则将用于预测的神经网络算法训练好并将网络结构存储在Oracle数据库中,当用户进行实际预测时可以省去网络训练的过程,提高了实时性。实现了基于Hadoop的x-means算法。该算法是对k-means算法的改进。用户在进行聚类时不再需要指定具体的k值,而只需要指定一个k的范围,算法可以在此范围内寻找一个最适合的k值,这可以在很大程度上避免了用户盲目指定k值所带来的不确定性。借助开源数据挖掘算法包Apache Mahout中的关联规则算法,对影响能耗值的相关属性进行关联规则分析,找出能耗与其各个影响因素之间的潜在关系。
其他文献
聚丙烯酸酯(PA)乳液当前在水性涂料领域应用广泛。以PA乳液作为成膜树脂,形成的漆膜透明性好、粘附性强,而热黏冷脆、耐水性和热稳定性差一直是它的缺点。本论文制备了一系列
物联网是一个新生产物,是一门涉及多种技术的学科,其核心部分包括了嵌入式技术、传感器技术以及无线传感网等众多技术。物联网技术的应用,是推进信息化的一个重要部分;物联网
随着市场经济的深入发展,我国中小企业数量不断增长,成为国民经济持续增长的重要推动力,并在解决就业问题,维持社会稳定等方面发挥着重要的作用。然而由于中小企业自身资产实力薄
目的:探讨可卡因-苯丙胺调节转录肽(cocaine-and amphetamine-regulated transcript peptides, CART)抗氧化减轻缺血性脑损伤及其机制。方法:健康雄性ICR小鼠随机分为四组:缺血/
综合客运枢纽是综合交通网络中各种交通方式的衔接点,也是大量客流的集散地。综合客运枢纽的设计与运营水平直接影响城市交通网络的运营效率与服务质量。本文通过对枢纽内各
升入高一后,学生普遍反映高中物理难学。而教科书作为师生教学活动的重要课程资源,应该受到衔接问题研究者的重视。为了帮助高一学生跨越初高中物理的学习台阶,本文试图通过
近年来,在我国经济高速发展的同时,带给地方环境的压力相当大。随着经济的发展,资源的约束越来越突出,在这种情况下,为了保证经济“又好又快”的发展,我们国家经济结构要面临
3D打印发展迅速,有多种不同的解决方案。国内外都对其进行了深入的研究。主要技术有选择性激光烧结(SLS,slective lasersintering)、立体平版印刷(SLA,Stereolithography)、叠层制造
自古以来,我国都被视为农业大国,农业一直都是我国国民经济的基础。由于国家经济建设的需要,各地方规划占用基本农田等多种原因,导致部分基本农田被调出,为了保障基本农田数量不减
随着2008年金融危机及房地产市场的低位调控,经过数十年快速发展的灯饰照明行业进入调整期。无论渠道终端还是上游供应商,一致瞄准消费者,连锁品牌化已经成为行业发展趋势。