云环境下的极速学习机研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:wang3993
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
极速学习机是一种用来求解单隐层神经网络的快速学习方法。它只需要设置网络的隐层节点个数,随机生成输入层与隐层之间的权值和隐层的偏置权值,且在算法执行过程中不需要再做调整,最后只需求解一个最小范数最小二乘问题。因此,极速学习机算法具有训练参数少、学习速度快和泛化性能好等优点。虽然极速学习机算法有众多的优点,但是与传统的机器学习算法都存在一个很现实的问题,即在如今互联网高速发达的时代,数据量也是以指数级增长,传统的机器学习算法由于受到机器内存的限制,不能有效地处理大规模的数据。针对以上问题,本文提出将极速学习机和当下流行的云计算平台相结合,利用云环境这个大规模并行处理系统来为极速学习机提供所需的存储和计算空间,使极速学习机实现高效地处理大规模数据的目的。本文的主要内容如下:提出了一个基于Hadoop分布式计算平台的极速学习机分类算法。根据极速学习机的基本步骤,先是确定隐层的节点个数和随机给输入权值和隐层偏置值赋值,接着由样本值和上一步的结果计算得到隐层输出矩阵,最后由隐层输出矩阵和样本值得到最后的输出权值。每个步骤对应一个Map Reduce作业实现,每个Map Reduce作业的输出为下一个作业的输入,以此类推。利用了Hadoop平台出色的并行处理能力,解决了传统极速学习机分类算法在面对大规模数据时,效率低下和内存耗尽的问题。基于以上的算法提出一个基于Hadoop分布式计算平台的极速学习机分类改进算法。考虑到Map Reduce作业中的map与reduce的计算时间、两者之间的通信时间和网络延迟,通过将极速学习机算法的所有步骤用一个Map Reduce作业来实现(不包括预处理),减少了Map Reduce作业的个数,从而减少了数据处理的时间,提高了算法运行速度。因此,全文的工作主要是:提出一个基于Hadoop分布式计算平台的极速学习机分类算法及其改进算法,且验证了所提算法的可行性和有效性。
其他文献
随着我国经济的增长,对能源的需求不断增加,煤炭作为我国的重要能源之一,需求量也随之会快速增加。但是,煤矿生产带来的安全问题却成为业界一直不可回避的问题之一。尤其矿难
我国拥有世界上最丰富的制造业资源,但我国的制造业所使用的粗犷的制造方式却极大的限制了制造业资源的利用率。但“物联”严重不足的情况导致了大量制造企业资源闲置,如何汇
互联网已经迅速发展成为我们生活、工作和学习中一个不可或缺的重要组成部分。 如何从这个巨大信息海洋中寻找所需的信息资源或定制自己的服务成为人们迫切关心的问题。作
随着Internet和多媒体技术的飞速发展,流媒体视频传输成为网络应用的一大热点,流媒体彻底改变了传统Internet只能表现文字和图片的缺陷,可集音频、视频及图文于一体。近年来,
聚类分析是认识事物的基本途径之一。通过聚类分析,可以更清楚地认识事物的本质特征。目前的各种聚类分析方法中,动态聚类法是最为普遍的一种。本文主要从静态样本和动态样本
国民经济持续快速发展的同时,铁路运能紧张问题也日益突出。编组站作为路网上最重要节点,承担办理货物列车的解体和编组任务,其效率的提高对提升整个路网的运输能力至关重要
P2P网络安全模型的研究是当前研究的热点之一。由于P2P网络分布式、缺乏集中控制的特点,使得P2P网络的安全成为一个突出的问题。因此需要一个分布式的信任机制来增强系统的可
3G(GPS/GIS/GPRS),是空间技术、卫星定位与导航技术和计算机通讯技术相结合,多学科高度集成的对空间信息进行采集、处理、管理、分析、表达、传播和应用的现代信息技术。前两者
在当今的经济、社会生活的各个领域中,互联网的应用正变得越来越广泛。在互联网经济迅猛发展的同时,由网站违规运营造成的问题也呈逐年上升趋势。虽然信息产业部通过ICP/IP地
本论文详细介绍了用于教学的PCI实验卡的设计与开发过程。在本设计中,采用PLX公司的PLX9054作为PCI总线接口芯片,FPGA芯片采用的是Altera公司生产的Cyclone系列EP1C6Q240C8芯