基于抽样的云频繁项集挖掘算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:skljgsdklj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据收集技术的发展,海量数据时代已经到来。当今社会商业竞争异常激烈,人们迫切希望从海量数据中,提取有用的信息以帮助进行商业决策。但是,传统的数据分析和数据挖掘技术在处理海量数据时,时间和空间的代价过大,很难满足人们的需求。例如,数据挖掘中传统的频繁项集挖掘需要多次扫描数据集,消耗大量时间;还需要存储大量的候选项集,消耗大量内存。数据收集技术发展的同时,海量数据处理技术也以高并发、低成本的处理优势高速发展。近几年,以Hadoop生态系统发展最具代表性。Hadoop项目主要由两部分组成:HDFS和mapreduce,它们分别是GoogleFile System和Google MapReduce的开源实现。Hadoop分布式框架主要是以廉价的商业机器为计算节点构成云平台,达到高效处理海量数据的目的。将数据挖掘和Hadoop框架有机结合,利用Hadoop优秀的海量数据处理能力进行挖掘,将会给数据挖掘带来新的活力。本文主要针对数据挖掘中频繁项集挖掘和Hadoop框架相结合,做了以下工作:(1)对Hadoop平台进行深入的研究和分析。Hadoop平台的最核心的两个部分是:用于海量数据存储的HDFS分布式文件系统和用于数据处理的Mapreduce并行编程框架。两者相辅相成,构成了Hadoop分布式框架。(2)为了进一步提高频繁项集挖掘效率,提出了一种基于Hadoop平台的并行抽样算法。这种算法利用mapreduce编程框架,单次扫描海量数据即可实现随机抽样。在抽样的过程中,还可以完成对数据的清理工作。(3)对传统频繁项集挖掘算法进行深入的研究后,提出了一种基于抽样的频繁项集并行发现算法。该算法基于Hadoop平台,充分发挥其处理海量数据的优势,实验证明该算法具有良好的挖掘性能。
其他文献
数字图书馆作为21世纪图书馆现代化发展的方向,已成为信息时代的基础设施之一。它向读者和用户提供比传统图书馆更为广泛、更为先进、更为方便的服务,从根本上改变了人们获取、
弱通信条件下多AUV任务分配问题是研究多AUV系统众多方向中的一个非常具有挑战性的方向。由于水下通信的不稳定性,导致一般的任务分配算法在多AUV系统上并不能取得良好的应用
基于对象的网络存储是当前存储领域研究的热点问题,基于对象的网络存储服务性能优化研究是其中的重要方面。计算机网络的快速发展与网络存储信息量的急剧膨胀对网络存储系统
信息技术的发展使人类社会大步迈入了网络时代,使得人们开始广泛关注网络理论研究。复杂网络理论研究各种看上去互不相同的复杂网络之间的共性和处理它们的普适方法,探索复杂
可信计算是当前研究的热点问题,构建安全的可信计算系统涉及多方面的内容,存储安全是其中重要组成部分,而数据的完整性和机密性保护是存储安全的两个最基本要求。  目前在
随着移动智能设备的普及和功能的增强,多样化手持与车载终端的广泛应用,无线通信需求的进一步增加,无线网络逐渐延伸到拓扑更加多变、信道更恶劣的应用环境中,这些场景具有节点分
随着因特网技术在人类社会活动中的应用越来越广泛,因特网中信息的规模越来越大。庞大的信息数量使得大部分人难以自己检索需要的信息,而只能通过搜索引擎帮助检索。但现有的搜
近年来,时滞神经网络已经广泛应用到模式识别,信号处理,联想记忆,全局优化等领域。众所周知,神经网络的设计必须很大程度的依赖于系统本身的动力学属性。因此,时滞神经网络动
在软件系统建模领域,面向对象的建模方法已经占据了主流地位。然而,面向对象建模方法,都存在如下几个问题:(1)已有的面向对象建模方法常常把目光集中在建模元素上,而不关注与
近年来,现代科学技术迅猛发展,传感器依赖的科技,如嵌入式技术、无线网络通信技术、微机电技术等日新月异,能够民用的无线传感器网络应用也逐渐出现在人们视野。目前,我国对