论文部分内容阅读
极速学习机是一种用来求解单隐层神经网络的快速学习方法。它只需要设置网络的隐层节点个数,随机生成输入层与隐层之间的权值和隐层的偏置权值,且在算法执行过程中不需要再做调整,最后只需求解一个最小范数最小二乘问题。因此,极速学习机算法具有训练参数少、学习速度快和泛化性能好等优点。虽然极速学习机算法有众多的优点,但是与传统的机器学习算法都存在一个很现实的问题,即在如今互联网高速发达的时代,数据量也是以指数级增长,传统的机器学习算法由于受到机器内存的限制,不能有效地处理大规模的数据。针对以上问题,本文提出将极速学习机和当下流行的云计算平台相结合,利用云环境这个大规模并行处理系统来为极速学习机提供所需的存储和计算空间,使极速学习机实现高效地处理大规模数据的目的。本文的主要内容如下:提出了一个基于Hadoop分布式计算平台的极速学习机分类算法。根据极速学习机的基本步骤,先是确定隐层的节点个数和随机给输入权值和隐层偏置值赋值,接着由样本值和上一步的结果计算得到隐层输出矩阵,最后由隐层输出矩阵和样本值得到最后的输出权值。每个步骤对应一个Map Reduce作业实现,每个Map Reduce作业的输出为下一个作业的输入,以此类推。利用了Hadoop平台出色的并行处理能力,解决了传统极速学习机分类算法在面对大规模数据时,效率低下和内存耗尽的问题。基于以上的算法提出一个基于Hadoop分布式计算平台的极速学习机分类改进算法。考虑到Map Reduce作业中的map与reduce的计算时间、两者之间的通信时间和网络延迟,通过将极速学习机算法的所有步骤用一个Map Reduce作业来实现(不包括预处理),减少了Map Reduce作业的个数,从而减少了数据处理的时间,提高了算法运行速度。因此,全文的工作主要是:提出一个基于Hadoop分布式计算平台的极速学习机分类算法及其改进算法,且验证了所提算法的可行性和有效性。