典型流式机器学习算法并行化设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:bingling1054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习是一类从已知数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,广泛应用到了各个领域。当前很多机器学习的应用场景中数据是“高速”、“动态”、“无穷”的流式数据,训练数据量大且数据分布与时间相关。因此流式环境下,机器学习算法的模型需不断更新,同时保证实时性和准确性,传统的批处理无法满足以上需求。  增量学习技术和阶段性计算的增量式批处理技术能够适应流式环境下机器学习的需求。为了使得模型能实时更新、数据重要性随时间衰减以提高准确性,流式机器学习算法基于以上技术进行改进。一些分布式机器学习框架上并行化地实现了部分流式机器学习算法,但是现有的工作存在以下问题:(1)典型流式机器学习算法缺少并行化方案;(2)缺少流式机器学习的计算模式和数据流模型;(3)已经实现的并行化流式算法实时性、准确性不佳。  针对现有工作的不足,本文(1)总结了流式机器学习算法的特征;(2)将流式机器学习算法分为微批式增量更新、在线增量更新和在线概要更新三种计算模式,分别对应于批处理技术、在线学习技术和流数据挖掘技术在流式环境下的改进;(3)根据计算模式中计算步骤的时序逻辑建立数学模型,并将数学模型中计算函数输入输出之间的依赖关系表达为数据流模型,包括参数增量计算流、参数更新流和模型计算流;(4)提出流式的数据、变化的参数的划分方式,数据流模型中各个计算流的并行化实现方法,总结出算法流式化和并行化设计步骤和并行化方法决策规则;(5)根据提出的三种计算模式、数据流模型、并行化方法,基于Flink分布式流处理框架,流式化和并行化设计与实现典型的流式机器学习算法。  实验结果表明,基于本文提出的流式机器学习的三种计算模型、对应的数据流模型和并行化设计方法,批处理算法、在线学习算法和流数据挖掘算法都可以简单地在分布式环境下并行化流式实现;计算延迟在百毫秒级别,达到实时性预期;吞吐率随着计算节点的增加而增大,算法具有扩展性;并行化实现的准确性对比串行实现的损失保持在1个数量级以内。
其他文献
随用户需求的不断提高,网络业务逐渐向多样化方向发展。为适应这种变化,未来网络的主要特征将呈现出融合性、异构性。而目前网络管理系统中的管理信息模型仍然是网络相关的,
在超深亚微米工艺下,长总线时延成为了影响系统整体性能的重要因素。然而,电路中寄生元件作用日益显著,严重的串扰效应,使得总线的实际时延加倍,因此,针对总线的串扰效应开展容错设
传统的交换网络将所有的业务和控制能力集中在交换机上,导致新业务的提供需要较长的周期,且仅提供简单业务无法产生足够的收益,于是,业务需求促使了下一代网络(NGN)的出现。
随着展馆管理的信息化、自动化及安全级别等的不断提高,传统管理方式中使用人工监控及采集数据的方式已越来越无法满足需求。传统的展馆管理方式无法实现对参观者及展馆情况
视频运动目标检测与跟踪技术是随着数字视频技术的发展而产生的一个新的研究课题,在国防安全、民用事业等领域有着广泛应用。粒子滤波算法本身适用于非线性非高斯动态模型,更
CRM (Customer Relationship Management客户管理),是在企业电子商务中流行起来的概念。通过构建CRM系统,企业基于对客户详细资料的深入分析,来提高客户满意度与销售业绩,从
Internet作为一个典型的复杂网络实例,对其宏观拓扑结构的特征分析是目前研究的主要内容和热点问题,受到了学术界的广泛关注。近年来人们在该领域的研究取得了长足的进展,但
云计算是一种全新的IT服务模式,向大量用户透明地提供按需、弹性、高效用的多租户服务。云计算凭借其超大规模存储能力、超大规模分布式并行计算能力、较高的可靠性和可用性
随着全球能源的日益短缺和温室效应的不断加剧,国际社会对节能的要求已经深入到人们生活的各个领域。近年来,由于网络技术不断进步,各类应用需求迅速增长,网络设备的规模和复
本文主要描述了基于关系-XML双引擎数据库管理系统CoSQLRX的XML数据索引的研究与实现。双引擎数据库系统是指能同时处理关系型数据和XML类型数据的数据库系统。随着XML相关技