面向并行微重启的检查点优化方法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:anitalok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
并行程序在科学计算、金融股票、国防安全等领域应用日益广泛,其执行周期往往以月为单位。为了应对随机错误、蓄意攻击等威胁,并行程序必须具有容错机制以确保其正确运行至结束。微重启技术作为一种有效容错手段,其核心思想就是在影响尽可能少的进程的前提下,将局部进程的错误状态恢复至正确状态,并保证整体执行结果的一致性。受目前重启框架尤其是检查点策略的影响,微重启主要面向串行程序,对并行环境的硬件故障容错具有局限性,例如硬件故障后检查点文件丢失、硬件故障恢复后集群负载不均衡。为此建立了一种高效、可对硬件故障容错的通用并行微重启架构,并提出了多级检查点策略及其存储与周期优化方法。首先,设计了一种高效、对硬件故障容错的通用并行微重启框架,重点解决了现有检查点策略对并行环境硬件故障不支持的问题。针对现有检查点策略对于硬件故障容错的局限性,将磁盘检查点与内存检查点优势相结合,提出了一种面向并行微重启的多级检查点策略。该策略以磁盘检查点为基础,融合使用双内存检查点,解决了硬件故障后检查点文件丢失的问题。在此基础上,利用内存检查点通信方面的优势,实现一种面向内存检查点的进程迁移机制,解决了硬件故障恢复后服务器集群负载不均衡的问题。同时,设计了一种内存检查点设置周期动态调整算法,降低了内存检查点的计算资源开销。其次,提出了一种面向多级检查点策略的检查点文件存储优化方法,对多级检查点内存布局进行了研究,减小了检查点文件体积。依据科学计算程序的数据分布特点,利用哈希函数跟踪内存变化,实现了一种带零块检测的多级增量检查点,有效减少了检查点文件的体积。进而结合已有的压缩算法,设计了一种多级检查点压缩算法,对压缩效率与系统开销做出均衡,进一步降低了检查点文件的磁盘和I/O开销。实验结果显示,该存储优化方法可以提高并行微重启的运行效率和恢复速度。最后,提出了一种多级检查点近似最优周期计算方法。通过引入检查点成本的定义,将一个并行程序的执行过程符号化。在此基础上,将多级检查点周期优化问题抽象为一个非线性的检查点成本模型。根据多级检查点结构的特点,分析在检查点设置过程中可能出现故障的位置,由该模型得到多级检查点成本公式。最终,引入三个影响因子模拟消息日志对多级检查点带来的影响,得出多级检查点近似最优周期计算方法。实验结果显示,该方法可以提高并行微重启的运行效率。
其他文献
广义频分复用(GFDM)是一种灵活的数字多载波调制方案,它的灵活性可以满足未来网络的多样化应用需求。多输入多输出(MIMO)技术可以在不增加天线发射功率和系统带宽的情况下提
随着惯性导航技术的快速发展,对基于惯性导航装置数据采集系统的精度和数据处理吞吐量要求越来越高,性能优良的数据采集系统备受惯性导航技术工作者的欢迎,为了提高系统的高
背景黑色素瘤(Malignant melanoma,MM),是来源于神经嵴黑色素细胞的高度恶性肿瘤,常见于皮肤和其他器官黏膜,早期即可发生局部和远处转移,恶性程度高,进展迅速,总体中位生存
随着3D电影《阿凡达》在国内外掀起的热浪,3D技术的发展迅速地成为业界关注的重点。3D获取可以通过直接拍摄,也可以通过一些后期处理技术生成新的虚拟视点。在立体显示中,更
互联网以其丰富的海量资源且规模日益增长的、开放的特性,成为各个行业以及各种信息系统重要的信息来源。如何从这个巨大的信息资源库中准确地获取有价值的信息,成为各种信息
随着嵌入式系统在工业和家庭的各个领域的广泛应用,对具有高速和实时数据存储能力的存储设备的需求也越来越多。基于嵌入式系统的数据的存储和管理逐渐成为当今的一个急需研
随着航天、国防、医学等领域的发展以及纳米技术的不断提高,零件的尺寸越来越小,微纳物体的表面参数分析已成为精密测量领域不可或缺的研究方向。2011年科技部启动了国家重大
纳米电子器件和技术是解决传统半导体工艺技术瓶颈的途径之一。共振隧穿二极管(RTD)作为较成熟的纳米电子器件,在高速低功耗的数字电路领域应用广泛。由RTD构成的单双稳态转
随着企业自主创新能力的不断增强,与之相关的R&D信息也日益增多。作为企业的战略性信息之一,R&D信息已然成为资本市场上价值评估的一项重要内容。2006年,财政部颁布的新企业
随着互联网技术的发展,人们已经从PC时代进入了以智能手机为代表的移动互联网联网时代,目前人类每天产生的数据量呈指数在增长。也有人称21世纪是数据的时代(DT)。移动互联网