【摘 要】
:
云计算平台是支撑互联网应用服务和大数据处理不可替代的基础设施,已经广泛应用于人类的生产、生活和城市治理的方方面面,呈现出大量数据密集型应用和日益提高的多应用粘合度,这不断加剧了云计算平台的I/O压力。为了支持应用迁移,提高云服务可靠性,云计算平台中的虚拟机使用分布共享存储资源来存储其关键数据。共享存储通过内部网络(如以太网)互连,大数据量存取的带宽可超过单磁盘带宽,但是,在小量数据存取时,延迟大,
论文部分内容阅读
云计算平台是支撑互联网应用服务和大数据处理不可替代的基础设施,已经广泛应用于人类的生产、生活和城市治理的方方面面,呈现出大量数据密集型应用和日益提高的多应用粘合度,这不断加剧了云计算平台的I/O压力。为了支持应用迁移,提高云服务可靠性,云计算平台中的虚拟机使用分布共享存储资源来存储其关键数据。共享存储通过内部网络(如以太网)互连,大数据量存取的带宽可超过单磁盘带宽,但是,在小量数据存取时,延迟大,平均带宽低。为提高云计算平台的I/O性能,虚拟机客户端广泛采用SSD作为数据缓存。然而,虚拟机特有的I/O操作特性大幅限制了客户端SSD缓存性能的充分发挥,具体表现为:在COW(Copy-on-Write)虚拟磁盘下,SSD缓存效率低;虚拟机文件系统的日志机制降低了SSD缓存效率;SSD存储空间有限,需根据虚拟机的QoS需求分配SSD缓存空间。本文针对上述三类技术难题,创新性地提出了以下技术解决方法。一、提出了根据COW虚拟磁盘I/O特性进行优化的数据缓存策略云计算平台中的虚拟机通常使用COW虚拟磁盘以提供多种虚拟机功能。然而,本文发现COW虚拟磁盘的元数据管理和COW机制,会将虚拟机发出的I/O请求数量扩大数倍,给SSD缓存带来低效的元数据性能和COW缓存扩大问题,不仅加剧了SSD磨损,还降低了I/O性能。针对上述挑战,本文提出了一个感知COW虚拟磁盘I/O特性的高效SSD缓存系统,具有三个创新点:(1)设计了一种新的SSD缓存管理架构,可以消除COW虚拟磁盘和SSD缓存的管理之间的语义隔阂,从而能够实现跨层次优化;(2)设计了一种细粒度的元数据缓存与合并写机制,通过匹配元数据的局部性特征,提高了元数据的缓存效率;(3)设计了一种解耦合COW机制,通过将COW虚拟磁盘扩大的I/O请求从关键I/O路径中解耦合出去,并只在SSD中缓存局部性高的数据,消除了COW缓存扩大问题。实验表明,相较于不感知COW虚拟磁盘的传统SSD缓存方案,该系统将虚拟机的I/O性能提高了多达122.7%,将SSD缓存的磨损减少了多达78.5%。二、提出了协同SSD缓存来保证虚拟机文件系统一致性的策略云计算平台中的虚拟机文件系统主要使用日志机制来维护存储一致性。然而,本文发现日志机制具有重复写模式(即对于文件系统的修改操作,需先写到日志区域,再更新到原始位置),其不仅会给分布式存储系统带来大量的日志写I/O,也会在SSD缓存中造成大量的冗余数据,从而降低虚拟机的I/O性能和SSD缓存的使用寿命。针对上述挑战,本文提出协同使用SSD缓存来保证虚拟机文件系统的一致性,具有三个创新点:(1)设计了一个虚拟日志设备,可以在SSD缓存管理器中获取虚拟机中日志机制的语义;(2)设计了一个缓存即日志区机制,通过将SSD缓存作为虚拟机文件系统的目标日志区域,消除了到分布式存储系统的日志写I/O,进而缓解了分布式存储系统的I/O压力;(3)设计了一个逻辑缓存机制,通过识别文件系统的同一修改带来的日志写I/O和原地写I/O,消除了二者在SSD缓存中产生的冗余数据。实验表明,相较于传统的SSD缓存方案,该方案将虚拟机的I/O性能提高了多达11.4倍,将SSD缓存的磨损减少了多达42%。三、提出了一种确定虚拟机实际缓存空间需求的R-MRC曲线以及基于该曲线且以QoS需求为导向的SSD缓存空间动态分配策略云计算平台中的SSD缓存通常由多个同时运行的虚拟机共享使用,不同的虚拟机具有不同的缓存使用模式,对于QoS服务质量的需求也各不相同。本文发现(1)传统的用于确定虚拟机的缓存空间与缓存性能之间关系的MRC曲线会高估其实际缓存空间需求;(2)传统的SSD缓存空间分配方案没有充分考虑单个虚拟机的QoS需求,从而导致有限的SSD缓存空间无法得到高效的利用。针对上述挑战,本文首先提出了一种新的R-MRC曲线,通过区分数据的局部性来确定虚拟机的真实缓存空间需求;然后提出了一种基于R-MRC曲线的SSD缓存空间动态分配算法,能够更好地满足每个虚拟机的QoS需求。实验表明,相较于传统的SSD缓存空间分配方案,该方案将所有虚拟机与其QoS目标之间的整体距离减少了多达80.6%,将SSD缓存的磨损减少了多达43.2%。
其他文献
以癌症为代表的复杂疾病严重威胁人类的生命健康,其形成包含复杂的分子间相互作用和调控过程。以患者临床表现出来的少数几种特征对疾病进行划分,然后对每一类辅以特定的治疗手段往往会在不同个体上有不同的反应,治疗效果难以预测。复杂疾病往往是由遗传因素、环境因素、生活习惯等多种因素之间相互作用导致的,并不遵循孟德尔遗传定律,因而家族病史和遗传相关信息只能说明个体存在患病的概率,但并不意味着就一定会患病,这些都
量子计算作为一种利用量子力学基本原理来完成计算任务的新兴技术,具有经典计算无法比拟的强大计算能力,一经提出就获得广泛关注。尤其在大数质因子分解与Grover搜索等量子算法提出之后,人们更加深刻的认识到量子计算或将为整个信息处理领域的演进与发展带来强劲动力。最近,许多国家颁布了关于量子计算研究的中长期发展规划,不断为该领域的技术实现与应用探索加码提速。作为一项应用广泛的信息技术,数据挖掘旨在从海量数
城市计算是计算机科学以城市为背景,跟城市规划、交通、能源、环境、经济和社会学融合的新兴交叉领域。城市计算的任务,是首先通过感知、获取城市中产生的各类大数据,然后采用高效的数据管理技术、先进的算法以及新颖的可视化技术来分析处理及展示大数据,用以解决城市中存在的诸多问题和挑战,如交通拥堵、空气污染、规划落后等。城市内产生的大数据多种多样,如人或车移动时产生的轨迹数据、各大媒体平台发布的新闻、股市里时刻
随着大数据时代的到来,网络空间的数据资源越来越丰富,其数据量已经远远超出了传统数据分析技术和信息系统的处理能力,寻求海量数据中的有效的信息已成为各领域的迫切需求。知识图谱以其语义网的本质,将客观世界存在的实体、关系、属性等概念以结构化知识的形式连接成庞大的网络,作为人类描述知识的重要载体,为大数据环境下的信息获取提供了便捷快速的解决方法。其中,人物实体作为信息交互的枢纽,往往在寻找目标知识的过程中
当今社会,无线通信为人们打开了俯瞰世界的视野,并逐步成为人们生活中密不可分的一部分。然而,随着社会的不断进步,无线通信的发展面临着诸多挑战。一方面,新兴概念如虚拟现实(virtual reality,VR)、物联网(Internet of things,Iot)、智能制造等的出现对无线通信的吞吐率、延迟、可靠性等方面均提出了新的更高要求。而另一方面,适合无线通信的频谱资源又非常有限。因此,增强对现
面对不断提高的卫星成像分辨率以及快速增加的在轨卫星,天基对地观测卫星系统获取数据的速度和总量都呈爆炸式增长。据报道,我国在轨卫星每天获取的对地观测数据高达数百个TB,而且增长势头强劲,这意味着对地观测大数据时代已经来临。当前,用户对卫星对地观测数据服务提出新要求。在时间分辨率上,用户急需卫星对地观测数据在获取、传输、处理和分发整个流程中的响应趋向近实时化;在空间分辨率上,用户需要卫星图像的分辨率高
在大规模分布式智能视频监控中,终端摄像头连续不断地向远程服务器发送所采集的视频数据,不仅需要较大的网络带宽和存储空间,而且网络传输延迟较大,面临采样视频压缩的严峻挑战。压缩感知能从基于少量采样点获取的测量值中重构原始数字信号,并在采样过程中完成数据压缩,非常适合于在智能监控终端完成高压缩率的监控视频采集。然而,目前的大部分压缩感知方法采用单一测量率进行压缩感知采样和重构,导致重构质量和采样压缩率的
软件是互联网生态重要组成部分,然而由于设计不当、开发失误等原因,软件中存在形式多样的漏洞,对软件安全乃至互联网安全带来严重安全隐患,不仅威胁个人隐私与财产安全,也对国家战略安全造成重大威胁。通过自动化手段挖掘软件漏洞,发现系统安全隐患并及时防护,是保证系统安全、稳定运行的必要手段。因此,软件漏洞自动化挖掘技术研究具有极高学术价值与现实意义。模糊测试是一种应用广泛的软件漏洞自动化挖掘技术。自其提出以
随着片上系统规模的不断扩大和处理核数的增多,系统对于片上Cache在容量和速度方面有了更高的要求。为了能够有效利用Cache资源,通常采用非一致Cache访问(NUCA)结构以支持高容量低延迟的Cache组织。另一方面,片上网络由于具备良好的可扩展性在片上众核处理器的互连方式上具有显著优势。因此,基于片上网络的非一致Cache访问体系结构逐渐成为未来众核处理器用于组织大容量Cache的主流系统架构
同时定位与建图(SLAM)是计算机视觉领域的重要问题,在无人驾驶、自主导航、成像制导、侦察等领域有着广泛应用。红外相机可以在夜间、雾霾、光照差的环境下成像,具有全天工作能力,因此红外SLAM比可见光SLAM的潜在应用场景更广。但是由于红外数据获取困难、图像纹理弱、信噪比低,国内外对红外SLAM的研究十分有限。本文以适用于红外成像的SLAM系统为研究目标,在研究过程中主要解决了红外相机标定、SLAM