基于Spark的分布式大数据机器学习算法

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户：zhoubin_

【摘要】

：

对于大数据而言，机器学习技术是不可或缺的；对于机器学习而言，大规模的数据可以提升模型的精准度。然而复杂的机器学习算法从时间和性能上都急需分布式内存计算这种关键技术。Sp

【作者】

：

王芮韩锐贾玉祥

【机构】

：

郑州大学信息工程学院,中国科学院计算技术研究所先进计算机系统研究中心

【出处】

：

计算机与现代化

【发表日期】

：

2018年11期

【关键词】

：

数据压缩偏向抽样随机梯度下降神经网络支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对于大数据而言，机器学习技术是不可或缺的；对于机器学习而言，大规模的数据可以提升模型的精准度。然而复杂的机器学习算法从时间和性能上都急需分布式内存计算这种关键技术。Spark分布式内存计算可以实现算法的并行操作，有利于机器学习算法处理大数据集。因此本文提出在Spark分布式内存环境下实现非线性机器学习算法，其中包括多层可变神经网络、BPPGD SVM、K-means，并在实现的基础上进行数据压缩、数据偏向抽样或者数据加载等方面的优化。为了实现充分配置资源批量运行脚本，本文也实现SparkML调度框架来调度

其他文献

中国荷斯坦牛的饲养与管理

我国饲养的奶牛是以"中国黑白花奶牛"为主,本品种是利用引进国外各种类型的荷斯坦牛与我国的黄牛杂交,并经过了长期的选育而形成的一个品种。本文主要讨论了中国荷斯坦奶牛的

期刊

犊牛培育产奶量中国荷斯坦牛奶牛群育成牛围产期奶牛

关于中国数据库调查方法与资本化核算方法研究

随着信息技术、互联网、人工智能、云计算的迅速发展,数据呈爆炸式增长,已逐渐成为一种极具价值的资产,世界主要国家纷纷出台扶持数据产业发展战略。国民经济核算国际标准《

期刊

数据库资本化调查方法核算方法GDPDatabase CapitalizationSurvey MethodAccounting MethodGDP

视障群体的文学阅读与创作需求:以论坛数据和深度访谈为中心的探索性研究

尽管关于视障人群服务的研究正在增多,但其文学创作与阅读需求暂未得到学界和业界的足够关注,而这一方面的需求研究,恰恰是支撑相关服务的基础。文章通过搜集国内视障群体最

期刊

视障人群文学创作阅读需求阅读行为visually impaired peopleliterary creationreading needsreadin

ZnO/Si异质结光响应研究型综合实验设计

设计了“ZnO/Si异质结光响应研究”的研究型综合实验。实验设计包括前期调研、ZnO/Si异质结的制备、测量电路设计及计算结果分析讨论3部分，并在此基础上进行实验拓展能力的培

期刊

研究型综合实验ZnO/Si异质结伏安特性曲线光响应researchoriented comprehensive experiment ZnO/Si h

基于Spark的分布式大数据机器学习算法

其他学术论文