基于云平台的并行关联规则挖掘算法研究

被引量 : 0次 | 上传用户:redghy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、通讯技术以及网络技术的迅速发展及普及,大量的数据库被广泛运用于社会生活的各个领域,积累的数据量很容易就达到TB级,甚至PB级。这些数据往往是有噪声的、大量的、异构的和复杂的,很难直接使用。所以,如何能以更加快速、低成本、高效的方式从海量数据中挖掘出有价值的、可理解的知识,从而帮助决策者更好地决策已成为数据挖掘技术领域的新课题。云计算的出现为海量数据挖掘带来了新的解决方案。Hadoop是由Apache基金会开源实现的一种云计算技术,它的关键技术是Hadoop分布式文件系统HDFS和MapReduce并行编程框架。在深入研究传统数据挖掘算法的基础上,如何结合MapReduce并行编程框架对传统数据挖掘算法进行改进,使之能够处理海量数据挖掘问题,是数据挖掘领域的一个热点。首先,本文详细研究了云计算、Hadoop的分布式文件系统HDFS以及MapReduce并行编程框架,阐述了基于Hadoop的数据挖掘系统的设计架构。然后,在深入研究传统关联规则挖掘算法Apriori的基础上,给出了将Apriori算法并行化处理的策略,提出了一种改进的并行算法AprioriMR。接着,在先前研究的基础上,引入幂集和矩阵的概念,提出了基于Hadoop和幂集的关联规则挖掘改进算法AprioriPMR以及基于Hadoop和矩阵的关联规则挖掘改进算法AprioriMMR。最后,搭建了结合Hadoop和HBase的实验环境,用Java完成改进算法的编写,并采用不同的实验数据集和实验条件测试了改进算法的正确性,通过实验结果的对比分析,得出改进算法具有更高的性能。
其他文献
马克思恩格斯关于未来社会分配模式的思想雷堂化马克思恩格斯曾经设想,共产主义社会的第一阶段和高级阶段分别实行按劳分配和按需分配。但如果据此认为,马恩关于未来社会分配模
汽蚀是由于流场中局部压力低于流体饱和蒸汽压,液体汽化并产生充满气体或蒸汽的气穴现象。汽蚀经常会给水力机械带来许多不可避免的问题,比如振动、升阻力系数波动、结构表面
我国刑法学历来重视对作为犯的研究,关于作为犯的认定和刑罚构建了几乎完整的体系和框架,对作为犯的研究已趋于成熟。对于不作为犯,可以分为纯正不作为犯和不纯正不作为犯。由于
<正>布鲁氏杆菌病(简称布病)是人畜共患的慢性传染病,主要侵害人畜的生殖系统,羊是主要的传染源,羊感染后,以母羊发生流产和公羊睾丸炎为特征。近几年该病发生呈上升的趋势,
随着硬件处理器,图像传感器性能的进步,视频监控技术飞速发展,网络摄像机大规模普及。图像质量是摄像机的核心竞争力,同时也是视频分析技术的基础。而高质量的视频图像不仅需
在家禽生产实践中,不同的饲养方式各有优势,放养可提高肌肉脂肪含量,提高其腿肌率、胸肌率;网上笼养和地面平养在料重比方面具有一定优势,网上平养还可减少呼吸道疾病的发生,
长期以来,如何对高管人员进行有效激励一直是理论界和实务界关心的重要问题。特别是股份公司大量兴起之后,伴随公司所有权与经营权的分离而产生的委托代理问题,使高管人员激
供需链管理的关键是链上各企业协调与合作.而库存协调是供需链协调与合作的重要组成部分。如何通过库存协调确定一个面向供需链的整体优化库存策略是供需链管理的重要课题。文
近些年来,非球面光学元件以其优越的光学性能、紧凑的结构正越来越多的应用于精密光学仪器中,非球面光学元件市场需求越来越大。这就需要我们尽快找到一种高精度、低成本、工