基于Hadoop云平台的频繁项集算法的研究与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:html007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的迅猛发展,数据信息呈爆炸式的增长,致使传统单机、串行的数据挖掘算法已经无法满足海量数据对计算和存储资源的需求。Hadoop云计算技术作为大数据时代的技术产物,它凭借着高效的处理性能、可靠的存储能力以及良好的并行化编程接口等优势,从根本上解决了传统模式在处理大数据时存在的性能瓶颈,并极大的简化了并行程序设计的难度。因此,在当前大数据的时代背景下,结合Hadoop在大数据处理方面的优势,对传统频繁项集挖掘算法进行并行化改造研究就显得格外有意义。本文研究的主要内容如下:首先,介绍了 Hadoop云计算技术在处理大数据方面的优势以及传统模式的数据挖掘算法存在的性能瓶颈。针对于现有FP-growth频繁项集挖掘算法在处理大数据时存在时空效率不高的问题,提出了一种并行化改进方案,该方案采用一种“分而治之”的思想对事务数据库进行水平分割,充分利用多节点并行处理的优势加速一项频繁项集和条件模式基的求解,并且通过在原有FP-tree树节点中新增一个带频繁项前缀的域空间来构建一颗新的条件模式树NFP-tree,避免了FP-growth算法需要递归构建FP-tree的不足,从而极大的提高了频繁项集的挖掘速度。其次,在传统FP-growth算法并行化改进的基础之上,结合Hadoop云平台技术在处理大数据方面的性能优势以及MapReduce并行编程模型提供的良好并行程序接口,提出一种基于MapReduce的并行频繁项集挖掘算法NFP-growth。该算法采用两次MapReduce的迭代求解过程:1)一项频繁项集的求解;2)条件模式基求解和频繁项集的生成。这样通过任务分解,有效均衡了算法各阶段的负载情况,从而提高算法的整体挖掘性能。最后,通过一个简单的实例验证NFP-growth算法设计的合理性。为了进一步验证NFP-growth的优越性,将其在Hadoop平台验证与分析,实验结果表明该算法具有良好的可扩展性与高效性。
其他文献
现今,随着经济发展水平的不断提高和社会的不断进步,环境质量却不断下降,转变经济发展方式、实现区域经济协调发展以及经济的可持续发展已经成为大势所趋,其中,跨区域产业转
教材是教师进行教学、搞好教书育人工作的具体依据,也是学生获得系统知识、发展智力、提高思想品德觉悟的重要工具。母语教材体现着民族的传统文化、人文精神和科学理念等全
随着桥梁结构形式不断向轻型化、长大化发展,桥梁在结构上变为一种柔性体系,对风的作用极为敏感,桥梁抗风设计已成为桥梁设计的一个关键性问题。由于湍流求解的困难,一般只能
近年来,可恢复功能结构体系已逐步得到关注和认可,其理念是将地震作用下的结构塑性损伤集中在可更替构件并降低结构残余变形,从而实现震后快速恢复使用功能和减少震后修复量
目的从保护肝脏线粒体和调控内源性抗氧化酶系统两个角度,选用急性酒精性肝损伤大鼠、刀豆蛋白A诱导的免疫性肝损伤小鼠两种常用实验性肝损伤动物模型以及乙醇损伤人胚肝细胞
云南牟定地区位于康滇地轴中南段。康滇地轴位于扬子地台西缘,其岩石、地层、构造复杂,历来都是矿产资源研究的重点地区。该区铀矿化类型多样,对于该区混合岩的铀矿化一直是
软件产品是一种具有易复制、易篡改、易散布等特性的数字产品,使得软件盗版蕴含着巨大的经济利益。针对软件盗版在我国呈现猖獗势头,软件版权保护技术成为近年来软件开发商和
随着信息产业尤其是互联网的高速发展,人们所能够获取的信息成爆炸式增长。对于PB级的数据处理已经成为越来越多机构的日常需求。本文详细介绍了当前海量数据处理的主流计算
物玛-先遣地区位于班公湖-怒江成矿带西段,这一成矿带上的矿床具有成因类型复杂、矿物种类丰富等特点,是非常重要的矿物学研究热点地区。新近发现的拿厅矿床,位于物玛-先遣地
随着航天电子技术的不断发展,航天器的智能化程度的不断提高,传统的有线数据采集方式给航天器的设计、维护带来了很大的困难,大量的线缆也占用了宝贵的载荷和空间。无线传感