面向分布式机器学习的网络加速机制研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：p_pppoe

【摘要】

：

【作者】

：

刘玲

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2021年01期

【关键词】

：

分布式机器学习模型同步网络拓扑光广域网训练时间

【基金项目】

：

国家重点研发计划项目（支撑 5G/B5G 巨连接、大流量、低时延快速演进的新型网络技术研究与试验,2019YFB1802800）；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了支持具有计算密集型和通信密集型的分布式机器学习训练任务,各大信息技术（Information Technology,IT）公司如微软,都使用图形处理器（Graphics Processing Unit,GPU）等加速硬件在数据中心内建立了专门针对机器学习的集群。加速硬件的使用大大提升了分布式机器学习的样本处理速度,单位时间内能处理更多的样本,同时也意味着网络在单位时间内需要传输更多的数据。然而,网络带宽的增长速率远远落后于硬件计算能力的增长速率。因此,网络的通信能力已成为了数据中心内分布式机器学习训练的性能瓶颈。另外,很多IT公司在全球建立了多个数据中心,每个数据中心都存储着为用户提供服务的数据和用户产生的相关数据。有些分布式机器学习应用如语音识别、视频或图像分类等,需要分析这些分布在各个数据中心的海量数据,以获取实时且稳定的机器学习模型。然而,由于隐私、政治、法律等因素,不能把所有的数据集中到一个数据中心进行训练。因此,跨数据中心的分布式机器学习一般采用分层的模型同步架构,即把数据中心内（局部模型同步）和数据中心间（全局模型同步）的模型同步解耦。然而,与局域网带宽相比,广域网带宽更加昂贵、稀有且异构,已成为跨域分布式机器学习的性能瓶颈。本学位论文以域内和跨域两个场景为中心研究从网络通信角度去加快分布式机器学习训练过程,研究内容和主要贡献点如下:1.研究光电交换网络中的在线分布式机器学习调度问题。针对现有的光电交换机调度方案不能适用于具有迭代性、通信与计算阶段相互交错特性的分布式机器学习,本学位论文设计了针对多个分布式训练任务的调度算法。对于单个任务,提出重负载优先算法（Heaviest Load First,HLF）,优先调度具有最重负载端口上的流;对于多个任务,提出最短加权剩余完成时间优先算法（Shortest Weighted Remaining Time First,SWRTF）,当某个任务从通信转为计算阶段时,选择可用的、具有最小加权剩余完成时间的任务执行通信阶段,从而提高电路利用率,加快数据传输,减少加权任务完成时间。2.研究适用于参数服务器架构的新型网络拓扑。由于现有物理拓扑设计与上层应用的通信模式无关,这种应用无感知的拓扑结构会限制上层应用性能的提升。因此,本学位论文针对广泛使用的参数服务器架构,结合其通信特点,提出了一种适合参数服务器架构通信需求的、可重构的、模块化网络拓扑结构——PSNet,并从理论上分析了分布式机器学习训练任务在PSNet和Fat Tree拓扑中的批完成时间。数值计算和本地测试平台的实验结果表明,在PSNet拓扑上运行分布式机器学习训练任务,能显著加快参数的同步过程,减少批完成时间。3.研究自适应全局模型同步优化策略。对于跨域分布式机器学习,传统的以参数服务器架构为代表的全局模型同步中的聚合节点是固定的。然而,这种固定的全局模型同步方案并不适用于带宽动态异构的广域网。因此,本学位论文综合考虑广域网带宽的稀缺性、异构性和动态变化性,提出了自适应的全局模型同步优化算法,能够根据网络带宽自适应地改变聚合节点的数量、位置及节点间路由,并从理论上分析了算法性能的界限。仿真及本地测试平台实验结果表明算法可显著提升带宽的利用率、加快跨域的全局模型同步过程。4.研究光广域网中分布式机器学习调度问题。虽然目前已有很多针对受限的广域网带宽提出的加速跨域训练方案,但大多数没有考虑到底层光广域网的可重构特性。因此,本学位论文提出联合网络层和可重构光层来优化跨域训练,对于任务内调度,首先证明了它是NP难问题,然后提出了基于确定性舍入的新算法,通过重新配置光器件来动态改变拓扑结构、为每条同步流分配路径和速率,并从理论上证明了算法性能的界限;对于任务间调度,提出基于由权重和任务剩余完成时间定义的优先级的多任务调度算法。仿真结果表明,结合底层拓扑的可重构性的网络层调度可显著加快训练过程。

其他文献

多糖类免疫增强剂的免疫调节作用及机制的研究

近年来,由于中医药现代化的快速发展,从而带动了中药多糖物质基础的研究进程。中药多糖有其独特的理论体系,通过免疫药理学来深入研究各类中药对动物机体免疫调节作用,从中寻找出更好的免疫抑制药物和免疫增强药物,使其更多应用于增进动物机体健康。

期刊

中药多糖免疫调节、免疫增强作用

抓好后继有人这个根本大计

《中共中央关于党的百年奋斗重大成就和历史经验的决议》指出,党和人民事业发展需要一代代中国共产党人接续奋斗,必须抓好后继有人这个根本大计。本期本刊策划特邀领导干部及专家学者阐释为什么必须抓好后继有人这个根本大计,具备什么样素质的人才能成为堪当时代重任的优秀接班人,从干部、党员、人才角度,阐释如何源源不断培养选拔德才兼备、忠诚干净担当的高素质专业化干部特别是优秀年轻干部,

期刊

数形结合解决几何证明题

几何证明题往往根据几何推理寻找图形内在的逻辑关系,然后在一步步演绎推理中得出最后的结论,而这推导更多地是从"形"上推理,"数"的思维参与往往很少.特别是对于"三角形"等几何章节的证明题,很少有教师引导用"数形结合"来解决有关证明题,但其实有些题目从"数形结合"的角度去思考反而更加容易解决.

期刊

让幼儿成长更开放——“开放性”教育理念在幼儿集体活动中渗透

开放性教育理念能够打破原有的封闭式集体活动方式的僵局,让幼儿真正地占据活动中的主体位置,实现学习空间的开放、学习思维的开放,以及学习形式的开放等,确立教师和幼儿的良好关系,真正地达到"教学相长"的效果。

期刊

幼儿开放性集体活动

青岛自贸片区：创新发展两周年亮出靓丽“成绩单”

报纸

制度创新空间成绩单

BIM技术在装配式建筑机电安装中的应用思考研究

BIM技术具有可视化、协调性的特点,而且模拟优化性、可出图形的优势较为突出。在装配式建筑施工中,基于BIM技术开展机电安装工作,能有效预防机电设备管线碰撞问题,提升机电设备安装质量,本文在阐述装配式建筑中的机电安装模块工作流程的基础上,就BIM技术在机电安装中的应用展开分析,期望能实现BIM技术与机电设备安装的有效结合,继而提升机电设备安装质量,促进装配式建筑工程的有序发展。

期刊

装配式建筑工程BIM技术机电安装应用要点

深度教学：基于认知结构的历史思维培养——以统编教材《中国历史》“夏商周时期教学”为例

深度教学是相较于浅层教学而提出一种教学方式,是学科教学走向核心素养的一个突出表现。相较于历史学科知识教学的表层化和历史学科思维的浅层化,历史深度教学特征集中表现在知识和思维的统一上。基于历史学科知识事实性、关系性、价值性的三层次认知结构,培养学生的历史学科思维应关注历史形象思维、历史逻辑思维的培养,找准价值性认知的历史时态定位。

期刊

深度教学历史学科认知结构核心素养

平均5天一项“创新”，“自贸试验”频结硕果

报纸

自贸试验区保税货物自由贸易试验区外贸进出口营商环境进口原油大宗商品交易市场纳税主体实际利用外资自贸区

老年人应注意避免药物伤害

人上了年纪,都会发白齿落,腰弯背驼,这是生理进行性衰老的表现。人一老,五脏六腑功能就会随着年龄增加而逐渐退化,新陈代谢能力日益下降,身体难免会出现一些疾病,就会服用多种药物。由于老年人肝肾功能衰弱会影响药物从肾脏排泄,使药物在血中停留的时间延长,所以药物引起的不良反应对老年人的伤害更大。

期刊

“水”与“water”的认知隐喻对比（一）——“水”与“water”相同的认知隐喻

认知语言学的体验观认为:语言赖以产生的人类的范畴、概念和心智是基于身体经验的。"水"和"wat er"这一概念在汉语和英语中的所指是同一客观存在,因此汉语使用者和英语使用者对这一客观存在有着相同或相似的身体体验,并由此产生相同或相似的意义衍生。

期刊

水相同或相似意义衍生

面向分布式机器学习的网络加速机制研究

其他学术论文