云环境下数据挖掘算法的研究与设计

来源 :东华大学 | 被引量 : 10次 | 上传用户:qqq1254
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,又名知识发现,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,智能地搜寻隐含在其中的有价值的信息。通过数据挖掘,不仅可以总结过去的发展历程,同时还能预测未来的发展趋势,为商业决策、医疗研究、军事等领域提供强有力的支持。然而随着大数据时代的到来,日益庞大的数据规模正在向传统数据挖工作发起挑战。大规模的计算能力成为数据挖掘技术能否有效实现的先决条件。所幸的是,计算机技术与互联网技术的发展,在产生大数据的同时,也孕育出了全新的云计算技术。凭借云计算其分布式计算平台所提供的强大计算能力,云计算与数据挖掘二者的结合存在着巨大的优势和潜力。将云计算应用到数据挖掘中,可以为越来越多的海量数据挖掘提供解决方案,这已经成为数据挖掘行业发展的趋势。在数据挖掘中,关联规则和聚类分析是重要的数据挖掘算法。其中,关联规则算法中的核心是Apriori算法,它是通过多次扫描数据库来寻找所有的频繁项集。当面对大规模数据时,重复的数据库扫描将花费大量时间和内存空间,大大降低了算法执行的效率。同样的,典型的聚类算法K-means算法需要多次进行数据对象与聚类中心间距离的计算以及同一聚类内点平均值的计算。在处理规模较大的数据时,同样受制于内存容量,往往不能有效地运行。因此,本文主要是利用Hadoop云计算平台强大的分布式计算和存储数据的能力,基于MapReduce编程模型将传统串行算法并行化设计,从而解决关联规则和聚类分析中所面临的有效处理大规模数据问题。首先,本文主要介绍了云计算Hadoop框架、关联规则Apriori算法及聚类分析K-means,同时深入研究Hadoop的两大核心技术——HDFS分布式文件系统及MapReduce编程模型。接着,基于MapReuduce编程模型,对传统数据挖掘Apriori算法和K-means进行改进,分别提出并行化设计方案。并行化后的算法将重复的计算工作分布在各个节点,减少了单个节点的计算负担和计算时间,有效地提高了算法效率,使它们能并行处理大规模数据。最后,将基于MapReduce并行化后的改进算法部署到Hadoop集群环境中,在不同大小的数据集下对改进算法进行实验,并根据实验结果分析并行算法的性能表现。实验证明,基于MapReduce的Apriori算法和K-means算法一定程度上解决了传统数据挖掘耗时长、效率低的问题。
其他文献
随着移动通信的飞速发展,为了更有效地提供高速率、高质量的传输来满足人们的需要,开发更高效的扩频技术、调制方法以及信号处理技术成为提高无线资源利用率的一个重要途径。
射频识别技术是一项从上世纪八十年代开始逐步走向成熟的自动识别技术。与其它自动识别技术相比,RFID技术以其特有的无接触、抗干扰能力强等优点,逐渐成为自动识别技术中最受
经过多年的研究和发展,数字电视技术已经成熟,将全面取代模拟电视,成为新兴的信息支柱产业之一。欧洲地面数字电视传输标准(Digital Video Broadcasting-Terrestrial, DVB-T)
组播是一种高效的数据传输方式。组播相对于传统的点对点的单播方式降低了对发送者的压力并且节约了传输数据时需要的带宽,因此非常适合以组播方式开展多接收者的点对多点或
空投重物和伞兵伞在开伞、着陆过程中均会因受冲击而发生过载现象,过载是评价降落伞性能的重要参数之一。伞兵伞开伞过载是指在伞充气张开的过程中,作用时间在1秒以内作用于
近年来,随着嵌入式技术的快速发展和普及,数据采集记录系统在多个领域的运用越来越广泛。在实际工程测试时,需要使用数据采集记录仪做电厂现场振动监测,高空或井下检测,车载
雷达信号处理的发展一直是雷达技术发展的核心,其相关处理单元包括脉冲压缩、动目标检测(MTD)、非相参积累、恒虚警检测(CFAR)、单脉冲测角等。其中单脉冲测角是跟踪雷达的关
本文主要是对基于数字图像处理技术的维氏硬度测量系统进行研究与实现。通过学习和研究国内外现有的维氏硬度测量系统,验证这些系统中的相关算法,发现了某些算法的不足之处,
随着无线网络技术和计算机应用的普及和发展,公共场合配备了大量的无线局域网络,人们可以利用终端设备方便的连接无线热点,通过Wi-Fi信号在不同位置信号强度值的差异并匹配相
大米的碎米率、垩白度、黄米率常常是影响大米质量的重要因素,同时也是反映稻米种植水平,稻米加工水平的重要指标。本文开发的大米质量检测系统可以有效地检测大米图片、视频