基于大数据平台的数据挖掘算法研究与实现

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:ihwren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的高速发展,互联网平台上每天都会产生海量数据,如何从这些海量的数据中提取出有价值的信息具有重大的意义。Hadoop技术提出的HDFS和MapReduce技术解决了海量数据的分布式存储和计算问题;Spark技术提出RDD数据模型和基于内存的计算模式擅长于快速数据处理,特别是在需要反复迭代的数据挖掘工作中更为出色。本论文正是基于大数据和云计算的应用背景,对 Hadoop计算平台调度算法和 Spark数据挖掘算法进行研究。  论文首先介绍了Spark技术的背景知识,简要讨论了Spark技术的系统架构、RDD的编程思想、k-means聚类算法和相关推荐算法等。同时,论文还分析介绍了Hadoop计算平台的作业调度算法。  针对现有hadoop平台作业调度算法无法很好满足多任务调度的问题,论文提出了基于权值的hadoop计算能力调度算法,该算法通过动态计算各个任务的权值,同时均衡考量不同任务的优先级、计算资源需求、数据资源位置等信息调整任务调度顺序,实现多作业快速执行以及计算节点负载均衡。实验结果表明本算法在多任务调度的情况下可以更加快速处理海量数据。  针对现有数据挖掘算法的优化,论文还提出了基于Spark平台的k-means聚类算法、推荐算法优化以及在该平台上并行化实现。对于k-means聚类算法,提出了非均匀选择初始值的策略,通过设计数据点采样概率函数,使得区分度大的数据点被选中作为初始聚类中心;对于协同过滤推荐算法,提出了采用基于用户评分偏好聚类对协同过滤推荐进行系统优化。论文在真实计算环境下对两种算法的进行并行化实现,实验结果表明两种优化算法能够在Spark平台上并行化快速处理海量数据,并保证了处理结果具有更高的聚类准确性以及推荐精度。
其他文献
航道运输在整个运输体系中一直起着举足轻重的作用,随着经济的发展,运输量不断增大,航道安全成了必须确保的首要问题,特别是内河航道水文地理情况复杂,随气候季节变化性大,对
无线传感器网络作为一种新兴起的技术,目前还处于起步阶段,各种相关技术的研究还在探讨和论证阶段,是一大研究重点。而网络安全作为网络能够正常地运行和工作的前提条件,是当
中继技术是LTE-Advanced中引入的关键技术之一,中继辅助通信是一项可以满足终端用户Qos要求的重要策略。中继辅助通信具有两个主要作用:首先是扩大用户覆盖,即更多的移动用户
随着高速网络的普及和信息技术的发展,在人们生活水平提高的基础上,人们对于智能网络的需求不再满足于智能大厦这类大型的公共场所,更加贴近家居生活的智能社区以及智能家庭
单片低噪声放大器作为微波单片集成电路的重要部分,广泛应用于航天、雷达、微波通信、电子对抗、卫星和GPS接收机等接收系统内。现阶段射频接收系统对宽带低噪声放大器的各方
相干光正交频分复用(CO-OFDM)系统以其与数字信号处理的良好结合,对光纤传输中的色散损伤具有良好的容忍度和高频谱利用率等优点,已成为长距离高速光通信系统领域备受关注的技
目前的光通信系统是光电并存的,而非全光通信系统。如果光信号不转换到电信号,将很难进行存储、交换、路由等处理。慢光(Slow light)效应由于具有使光速变慢而且可控的性质,可以
数字图像作为信息载体,已经在日常生活中的各个领域得到广泛使用。但是随着现代科学技术的发展,对数字图像的篡改工具也比比皆是,使得信息传递面临极大的真实性问题。数字图像取
边缘到边缘伪线仿真(PWE3)是为实现传统通信网络与现有分组交换网络(PSN)的融合而提出的一种解决方案,以此达到资源的共用和网络的拓展。PWE3志在以提供最少的必备功能来进行
随着IP技术和无线网络技术的快速发展,VoIP系统在得到迅猛发展的同时获得了极大普及。它的出现不仅降低了人们之间通讯的资费,丰富了通讯的形式,而且还提高了人们的生活质量。同