【摘 要】
:
近年来,许多领域的数据量都在以惊人的速度增长,及时对数据进行收集、储存和分析,对于构建高效的业务解决方案至关重要,深度学习是高性能数据分析(HPDA)的典型应用。大多数深度学习应用是I/O密集型的,区别于传统应用,具有随机访问、超大数据集、高重叠、高聚集、大热点等特性,对支撑其运行的存储系统提出了较高的要求。Hadoop分布式文件系统(HDFS)基于Google公司的GFS,目前已广泛部署在深度学
论文部分内容阅读
近年来,许多领域的数据量都在以惊人的速度增长,及时对数据进行收集、储存和分析,对于构建高效的业务解决方案至关重要,深度学习是高性能数据分析(HPDA)的典型应用。大多数深度学习应用是I/O密集型的,区别于传统应用,具有随机访问、超大数据集、高重叠、高聚集、大热点等特性,对支撑其运行的存储系统提出了较高的要求。Hadoop分布式文件系统(HDFS)基于Google公司的GFS,目前已广泛部署在深度学习与HPC集群上。它的原始设计是利用大量分布式的廉价存储资源为用户提供容量大、性能高的存储服务,目前已无法有效满足深度学习应用的I/O需求。针对这一问题,本文首先提出了多级缓存的架构,并建立了缓存成本与收益的数学模型,接着提出了针对深度学习应用的缓存联合部署、大文件预取和小文件缓存三种优化方案。具体研究工作如下:①本文使用多级缓存的思想,并在HDFS数据节点上将传统硬盘与SSD进行整合,满足了深度学习应用对于云存储系统大数据,高带宽的要求。同时,建立各级缓存的效用模型,在综合考虑成本与性能的条件下,较为精确地求解出各级缓存的最优空间大小。②基于理论分析与真实平台数据,本文刻画了深度学习训练集与用户请求特征,提出了联合缓存部署、大文件预取和小文件缓存三种优化策略。其中,联合缓存部署策略通过计算各训练集副本的增益,使用贪婪算法进行部署;大文件预取在顺序读的场景下,将文件后续部分预先存入内存;小文件缓存则满足了深度学习应用场景中更多的I/O请求。为了评估所提模型与策略的性能,本文进行了大量的仿真与实际测试。实验结果表明,本文所提出的缓存效用模型在多种情况下均可以较好地针对各级缓存进行拟合,最大误差仅为2%,联合缓存部署方案缓存命中率明显优于LRU,大文件预取和小文件缓存策略平均性能提升分别超过40%和90%,较好地实现了深度学习应用场景下HDFS的优化目标。
其他文献
本论文研究的课题是具象油画创作中的虚实处理,以基本理论为引导,从画面构图、空气透视、色彩对比、笔触运用四个方面阐述其中的虚实处理方法,结合理论研究,深入探索画面中虚实处理途径,结合自己作品,再谈理解与认识、借鉴与运用。文章第一章主要以课题的背景为主题,了解关于“虚实”的文学著作以及学术期刊的研究现状,基于虚实在绘画中的重要作用,具体到中国学者的研究方向,主要以三个角度进行论述。其一,中国画虚实分析
随着时间的推进,数学在不断进步,在多个领域内实现了应用,特别是计算机与数学的紧密结合,都影响了数学学习与数学教育,给出了更高的期待。各个国家都提高了对数学教育的关注,科技的进步扭转了面向数学人才的需求,许多实际问题可以借助数学知识得以处理,这就需要数学建模这方面的人才,因此诸多国家不断强化数学教育层面的变革。积极借助数学建模的形式来有效处理实际生活当中的问题,构建数学模型是数学教育改革的重要组成部
本研究旨在揭示集约化封闭式蛋鸡舍内环境微生物气溶胶、颗粒物、有害气体时空环境分布规律。试验选择河北肃宁一处集约化封闭式蛋鸡养殖场为研究采样对象,于2019年11月的1号到4号,在早中晚不同的时间点和不同的空间位置采集蛋鸡舍内的空气气溶胶样本:试验一:利用浮游微生物采样器在水平和垂直各个点位采集微生物气溶胶,再通过平板培养、计数,得到空气微生物气溶胶浓度的空间分布;同样的方法再采集三天内早中晚三个时
“一带一路”倡议是我国积极寻求国际合作、促进全球共同繁荣、为世界带来和平与发展的重要举措。“21世纪海上丝绸之路”作为“一带一路”倡议中的重要组成部分不仅发挥着推动我国海洋经济与海洋外交双重发展的作用,还承担着从海洋领域推动全球化发展的使命。然而,目前全球政治经济格局动荡、极端自然灾害时有发生,海上交通运输系统常常会受到来自人为或自然灾害等外部环境的负面影响。海上交通运输系统的安全与“丝路”沿线国
江苏省货运铁路网络和干线航道网络是省内综合立体交通网络的重要组成部分,同时随着大宗货物、集装箱运输“公转铁”、“公转水”政策的大力推行,货运铁路网络和干线航道网络势必会在未来的综合立体交通网络中发挥更为重要的作用。然而,货运铁路网络和干线航道网络作为开放的复杂系统,其在运营过程中时刻面临着各种不确定的风险,一旦发生突发事件将会影响网络的正常运转。因此研究如何提高交通运输网络对突发事件的抵抗能力,保
柔性作业车间问题(Flexible Job-shop Scheduling Problem,FJSP)是现如今生产调度问题的一个重要分支,其起源于实际生产制造场景。对该问题的研究能在实际生产管理中,提高生产管理效率,科学分配各类资源,达到高效率生产线的目的。随着各类算法的提出与改进,对于柔性作业车间问题的求解研究已经达到一个新的高度。但是在定制化生产环境下,对于不同型号的订单产品的生产,模具是一种
深海是未来世界油气开发战略接替的主要勘探域,随着海洋工程逐渐向深水区域发展,各种浮式平台与系泊系统相继涌现,其中半潜式平台的作业成本受水深影响较小,适合用于深海油气资源的开采。随着半潜式平台吃水的增加,其深吃水柱状结构导致在一定来流下会产生显著的涡激运动(VIM,Vortex-induced Motions)现象。VIM问题属于前沿基础科学问题,深吃水半潜式平台由于多柱尾流的相互干扰,与Spar平
随着在线教育的发展以及移动互联网的普及,在线教育移动应用市场规模和用户规模正在稳步扩大,越来越多的人通过在线教育进行学习,但是用户在接受在线教育时,仍然存在着很多问题,用户对于在线教育的质量和效果有了更高的要求。以心流理论为研究基础,提出了在线教育环境下的心流模型,包括挑战性、响应速度、控制感、清晰的目标、及时的反馈、感知易用性、互动性、学习意向、学习成果9个心流因素,并通过结构方程对心流模型中各
近些年来,随着经济全球化、金融一体化的发展,同我们密不可分的利率成为金融界研究的焦点问题.根据利率与期限之间的关系,将其在坐标系上绘制成一条利率期限结构的曲线,利率期限结构包含了丰富的信息,无论是债券的定价还是国债探究,利率期限结构都是十分重要的突破口.随着对利率期限结构研究的深入,各位研究者们已不仅限于将Vasicek模型、CIR模型、HJM模型等连续模型应用于利率期限结构,更追求于二叉树模型、
桃是我国大宗水果之一,具有较高的经济效益和营养保健功效。味道甘甜爽口,深受消费者喜爱。但桃果实皮薄且肉质柔软,采摘期正值高温多雨季节,采后极易因病原微生物的侵染而发