基于Hadoop平台的数据挖掘技术研究

被引量 : 0次 | 上传用户:zble44
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的飞速发展,人们基于互联网所产生的数据呈现出爆炸般的增长态势。传统的计算机体系架构在大数据面前显得力不从心。云计算的提出,为复杂的大数据处理提供了新的解决方案。Hadoop是Apache基金会的开源项目之一,它基于普通商用计算机集群,展现出了卓越的计算能力、存储能力与调度能力。数据挖掘技术也以此为契机,进入了一个飞速发展的阶段。本研究基于Hadoop平台,在充分学习分布式程序的运行机理基础之上,对几种具有代表性的数据挖掘算法的实现思路与方法进行了深入研究,提出了将它们向分布式平台改造的方案,并实现了可以良好运行的Hadoop版本,从而帮助广大数据挖掘从业人员更好地基于该平台开展各项工作。课题研究的主要内容有:(1)针对传统的以文本方式存储的数据,基于MapReduce分布式编程框架,从数据挖掘三大类算法:分类、聚类和关联规则挖掘算法中,分别取每一类中有代表性的一种,分析算法的运行原理,制订改造方案,针对朴素贝叶斯分类算法、K-modes聚类算法、ECLAT频繁项集挖掘算法,进行了分布式算法的实现,它们均能够基于Hadoop平台高效、稳定运行。(2)针对互联网中新兴的非结构化数据,采用HiveQL语言作为检索入口,基于HBase分布式数据库,实现能够在其中稳定运行的分布式GAC-RDB分类算法。它使用高层语言作为切入点,不需要拥有诸如Java、MapReduce等背景知识,将开发人员从各类底层繁琐代码中解放出来,把主要精力投入到具体的业务分析中去,从而更快速、更便捷地完成各类数据挖掘任务。基于西北农林科技大学高性能计算集群,设计了多组方案对改造后算法的有效性和Hadoop平台的高效性进行了实验验证,将数据绘制成曲线并从多个角度进行了分析。实验结果表明,在保证算法有效性和准确率的前提下,MapReduce编程框架可以有效提高程序的运行效率,降低数据的处理时间;HiveQL查询语言可以减少程序的开发周期,更加方便地处理各种存储在分布式数据库中的数据。
其他文献
参照依赖是指个体基于某一参照点对得失价值进行判断:参照点之上,个体感受为收益,反之即为损失。参照依赖现象广泛存在于生活中的各种领域。当前,对参照依赖心理机制的解释主
随着我国石油和天然气工业的快速发展,油气管道建设突飞猛进。目前管道运输已成为我国陆上油气运输的主要方式。随着天然气长输管道的快速增长,其在我国一次性能源消费结构中
斯蒂芬·茨威格,1881年出生于维也纳。奥地利人,犹太人,作家,人道主义战士。他对政治深恶痛绝,既不属于任何党派,也不关心政治。但在1929年后他陆续发表《富歇——一个政治家
教育是生长,数学教育也是一种生长,是知识的,更是生命的生长。在教学活动中,教师既要适度拓展学习的内容,促使学生运用知识、经验等去思考,也要设计好练习、活动等多层面的变
我国是世界上最大的烟草种植国,其中烤烟是我国栽培面积最大的烟草类型。2006年,我国的烤烟种植面积达到121.5万hm2,占全国烟草面积的80%以上,而平均每公顷烟田产干烟叶1800-
不当的企业社会责任(Corporate Social Responsibility,CSR)表现会让消费者感知企业伪善,从而产生极负面的影响。但"伪善"概念刚经由社会心理学引入营销学领域,亟需准确定义
随着国际酒店业的发展,精品度假酒店这一类型的酒店正逐步走向市场并显示出强有力的发展潜力。随着我国酒店室内装饰设计的发展逐渐走向成熟,精品度假酒店的规模和数量也在急
目的:观察梅花针循经叩刺治疗脑中风后肢体感觉障碍的临床疗效。方法:120例脑中风后遗留肢体感觉障碍的患者被随机分为治疗组(n=60)和对照组(n=60),治疗组接受梅花针循经叩刺
我军的住房制度经过十多年的改革,已经取得了很大的成绩,但在住房资金管理、经济适用房建设等方面仍存在着一些问题,唯有借鉴经验、结合我军实际进一步深化改革,才能实现"分
目的:探讨综合护理干预在脑外伤后综合征患者康复中的应用效果。方法:将54例脑外伤后综合征患者随机分为对照组(n=27)和观察组(n=27),对照组给予神经外科常规护理,观察组给予