分布式机器学习系统调度技术优化研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:cairaymond
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展,机器学习的训练集规模与模型复杂度不断增长,单机训练模型已无法适应大规模数据环境。近年来,分布式机器学习因其具有海量数据处理能力以及灵活的扩展性,获得了越来越多的关注。分布式机器学习系统大多以参数服务器为系统架构实现。在分布式系统中,节点宕机与断网具有随机性,导致参数服务器系统采用静态调度时可扩展性与鲁棒性较差。节点间存在异构性,导致参数服务器系统的可移植性与自适应性较差。节点间存在多用户多任务共享资源,导致节点间存在性能差异而延长同步时间。同步是确保并行训练有效的必要手段。整体同步并行策略保证训练精度逼近于单机训练,但是将产生较大的通信开销且容易受到节点间性能差异的影响。异步并行策略极大地减少了同步时间,但是无法保证收敛性与模型精度。延迟同步策略在同步时间与模型精度取得了平衡。但是该策略不适用于具有性能差异的环境,在极端条件下将退化为整体同步并行策略。因此分布式机器学习系统的调度技术优化成为保障系统移植性高、可靠性高、自适应性高以及同步开销低的关键因素。针对上述问题,本文以调度优化为研究方向解决分布式机器学习系统可移植性差、无法应对集群内部训练资源动态变化以及自适应性差的问题。本文创新性地提出了两种调度优化策略:动态调度策略和自适应调度策略。本文基于上述两种动态调度策略实现了分布式机器学习系统ParaisoML。本文的主要研究内容分为如下方面:(1)本文对静态调度的缺陷进行分析,提出一种新的动态调度策略。静态调度在并行训练中无法感知节点资源动态变化,在不同集群间可移植性较差且难以提高可扩展性。动态调度策略适用于资源动态变化的场景,能够依据系统资源变化情况调整训练所分配的资源,提高可移植性与可扩展性。此外,动态调度策略能有效缓解节点间性能差异并降低同步时间。本文对动态调度策略进行设计实现后,在理论上对其进行论证。相关结果表明该策略可以保障收敛且模型精度损失在可接受范围内;(2)本文对动态调度策略进行扩展与优化,提出一种自适应调度策略。动态调度策略能根据资源变化情况调整节点及资源分配,但是无法修正节点间固有的性能差异以及不可预测的临时性动态资源变化。自适应调度策略支持节点动态加入及退出,并通过数据划分缩小节点间的性能差异。此外,自适应调度策略通过分析模型准确率变化规律缓解不同模型迭代收敛次数不具有解释性的瓶颈。本文在对自适应调度策略的设计与实现进行论述。相关结果表明该策略可进一步降低同步时间;(3)本文设计并实现基于动态调度策略和自适应调度策略的分布式机器学习系统ParaisoML。该系统主要由通信系统、资源探测系统以及任务调度系统组成。通信系统基于网络文件系统实现,提供数据通信服务。资源探测系统利用开源工具包Sigar对节点资源利用情况采样并对任务调度系统提供服务。任务调度系统分析资源采样信息并分配训练节点以及资源。数据划分策略在随机采样和乱置切分的基础上,通过随机增量与动态增量实现任务量负载均衡;(4)本文对分布式机器学习系统中常见的同步策略性能进行实验与分析。随后对ParaisoML可移植性、可扩展性以及自适应性的性能进行实验与分析。实验结果表明本文提出的ParaisoML在保证高准确率和收敛率的前提下,降低同步时间并具有良好的可移植性、可扩展性以及自适应性。
其他文献
产业链金融是一项针对在产业链上各企业,满足其融资需求,设计合适的金融服务产品以缓解融资矛盾,提高资金使用效率的一种服务模式。国家政策曾多次表示要鼓励产业链上核心企业参与产业链金融线上平台业务,为产业链上中小企业开展担保、保理业务等金融服务,缓解他们的融资难、融资贵等问题。但随着集团的产业链金融业务的扩张,产业链金融风险的控制难度逐渐加大,任何业务环节出现问题都会产生巨大的影响。因此对于集团来说,及
It is often claimed that the Daode jing道德經,one of China’s most venerable classics of religion and philosophy,is the second most translated book in the world
会议
5G即将开启万物互联的新时代,5G时代的网络部署、业务应用和商业模式逐渐显现出了新的发展与变革趋势。本文从5G业务需求、重点应用、商业模式、网络部署特点等维度进行深入
研究背景:乳腺癌是女性最常见的恶性肿瘤之一,也是女性因癌症死亡的主要原因。在过去几十年中,乳腺癌的发病率在全球范围内一直处于迅速上升状态。尽管早期筛查的大规模普及
在众多的网络安全防卫手段当中,流量检测是一种较为常用的方法,通过使用特定的技术检测网络的通信流量中是否包含恶意程序的攻击行为,同时可以为网络整体态势的感知提供重要信息,因此一直是国内外在网络安全领域的重点研究方向。早期的流量检测往往基于人工设置的规则,但随着网络中恶意程序的攻击形式愈发复杂多变,这类方法显得较为单一,很难快速适应愈加复杂的流量模式。因此,研究人员引入了机器学习方法以改善这种缺馅,其
众所周知,国家核心竞争力最重要的要素之一就是科学技术。而科学技术的研究与探索依赖于大型科学仪器设施及科研实验室。十九大后,由国家科技部和财政部发的国科发基[2018]64号文《关于加强国家重点实验室建设发展的若干意见》中指出到2025年,国家重点实验室体系要全面建成,科研水平和国际影响力大幅跃升[1]。而我国现在的研究中关于国家重点实验室项目施工风险管理方面的研究相对较少,本文的研究目的正是为丰富
产融结合是市场经济发展到一定程度的必然产物,是企业提升竞争力、促进资源配置以及助推企业快速成长的重要渠道。自上世纪90年代开始,产融结合逐渐在我国企业经营管理中发展
知识主体性是中国社会科学的一个重要命题,这是基于世界政治的基本经验教训而言.政治学乃至整个社会科学都是关于国家发展道路、国家组织方式和国家公共政策的学问,不可以“
在市场经济中,企业面临着激烈的竞争,随着企业的不断发展,越来越多的企业开始走向资本市场,希望借助资本市场的平台实现快速扩张和规模经济。企业可以选择IPO和借壳上市的途径进入资本市场,相对于IPO的审核程序,借壳上市的时间成本低,上市手续较为简便,更具灵活性。因此,对于迫切寻求上市的企业来说,借壳上市是较好的选择。近年来,中国证监会对《上市公司重大资产重组管理办法》进行修订,增加了部分条款,对企业借
清代喀喇沁左翼旗的喇嘛寺庙吉祥寺(藏文名 bkra-shis dgon),建筑装饰是汉与藏的混合,在大殿(lha khang)这个重要的神圣空间裹面,东西山墙画的是杭州圣因寺墨拓十六罗汉,且以