论文部分内容阅读
在大数据的时代里,实现高效的大数据的机器学习系统,需要开发人员要搭建一个计算机机器学习系统,并且该系统能够同时完成机器学习和大规模数据处理的任务。现有的训练数据集重复使用,场景信息较少,已经不能满足大规模机器训练的需要,所以需要包含大规模数据、分布式的计算机系统完成训练。本文介绍了现有大数据机器学习基本概念和一种称为Spark的大数据分布式计算方法。