基于Spark的分布式大数据机器学习算法

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户:zhoubin_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于大数据而言,机器学习技术是不可或缺的;对于机器学习而言,大规模的数据可以提升模型的精准度。然而复杂的机器学习算法从时间和性能上都急需分布式内存计算这种关键技术。Spark分布式内存计算可以实现算法的并行操作,有利于机器学习算法处理大数据集。因此本文提出在Spark分布式内存环境下实现非线性机器学习算法,其中包括多层可变神经网络、BPPGD SVM、K-means,并在实现的基础上进行数据压缩、数据偏向抽样或者数据加载等方面的优化。为了实现充分配置资源批量运行脚本,本文也实现SparkML调度框架来调度
其他文献
我国饲养的奶牛是以"中国黑白花奶牛"为主,本品种是利用引进国外各种类型的荷斯坦牛与我国的黄牛杂交,并经过了长期的选育而形成的一个品种。本文主要讨论了中国荷斯坦奶牛的
随着信息技术、互联网、人工智能、云计算的迅速发展,数据呈爆炸式增长,已逐渐成为一种极具价值的资产,世界主要国家纷纷出台扶持数据产业发展战略。国民经济核算国际标准《
尽管关于视障人群服务的研究正在增多,但其文学创作与阅读需求暂未得到学界和业界的足够关注,而这一方面的需求研究,恰恰是支撑相关服务的基础。文章通过搜集国内视障群体最
设计了“ZnO/Si异质结光响应研究”的研究型综合实验。实验设计包括前期调研、ZnO/Si异质结的制备、测量电路设计及计算结果分析讨论3部分,并在此基础上进行实验拓展能力的培