容错不死系统的研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:seraph72
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着集群技术的发展,集群越来越广泛的被运用于科学计算领域。从理论上分析,集群模型既能提供高可用性和高性能,也能提供可管理性、可扩展性。但目前,这仅仅是模型上的理论阶段,为实现这个伟大梦想,集群软件还有很长的路要走。当集群开始被科学高性能计算领域应用时,可靠性就已经作为一个问题被提出了。随着系统硬件和软件复杂性的日益增加,越来越多的科学计算应用程序在提高性能的同时,也伴随着容错性与健壮性的保障。 本文构建了高性能计算容错不死系统,面向科学计算应用程序,以向用户提供保障服务和优质服务为己任。其中保障服务指的是用户只需向系统提交任务一次,系统就能在节点失效等多种恶劣条件下,顽强完成任务,最后返回计算结果给用户;优质服务指的是在系统中添加了可以预测系统性能和任务性能的智能模块,通过调整网格环境内各节点的负载情况,进行有效的子任务迁移,最终缩短总任务的运行时间。 本文针对并行计算问题,总结出由用户、管理节点和工作节点组成的任务模型,提出目录式、文件式和参数化的任务统一描述思路,便于任务的划分和有效管理。保障服务的实现主要依赖两项技术,单节点内任务复活技术和多节点间任务复活技术。任务复活指的是任务在意外终止的情况下能重启并恢复到原先状态继续运行。优质服务的实现也主要依赖两项技术,性能预测技术和任务迁移技术。其中性能预测指的是系统能根据网格内各节点的负载情况,判断并选择运行该任务最适宜的节点,任务迁移技术指的是任务从一个节点迁移到另外的节点继续运行。 在实现保障服务和优质服务的各种技术中,最关键和最基本的技术是检查点技术,检查点技术现有很多的实现方式,涉及用户级和系统级、修改源码和无需源码等多个方面。本文综合比较并分析了多种典型的检查点技术,然后融合几种检查点技术,根据自身试验环境的特点,提出容错不死系统的解决方案。最后经过实例分析,指出系统的特长与不足,以及未来展望。
其他文献
随着无线通信技术的发展和网络的大规模建设,移动运营商和设备制造商对无线网络前台测试技术的关注也越来越多。无线网络前台测试通过专门的平台接入无线网络,使用移动网络的
机器视觉技术通过计算机模拟人眼,根据图像中提取出的信息,来判断物体和景物的形态和运动的方式,并把机器视觉用到实际生产和生活中。在生产过程中,指针式仪表的应用非常普遍
喷绘机所采用的接口技术可以间接反映出喷绘机输出速度的快慢。USB(Universal Serial Bus,通用串行总线)是外围设备与计算机进行连接的新型接口,是计算机外设连接技术的重大变
网格是目前分布式计算机领域重要研究方向之一,它实现了大规模的资源共享,并将它们转化成一种随处可得的、可靠的、标准的共享资源。经典体系结构OGSA是在原来“五层沙漏结构”
现代社会的发展,使得在任何时间、任何地点、任何设备上进行信息交换的需求越来越迫切。而当前的这些服务都是通过传统的C/S模式的,即:有一个中心服务器,客户端都是从服务器端获取
传统数字签名的安全性主要是基于大素数分解和离散对数问题,在1994年Shor提出了在量子计算机下能够破解这两大问题的量子算法后,抗量子计算的密码安全引起了密码学界的广泛关
卫星测高是随着卫星遥感测量技术发展起来的综合性学科,它利用卫星上装载的雷达高度计,测量卫星到海面的平均高度、有效波高和后向散射系数。随着技术和需求的不断发展,对高
IP电话技术以其巨大的应用优势赢得了市场的青睐,成为当今世界上发展最快的应用技术之一。世界上电信业和计算机业各大组织的积极努力,产生了现阶段用来构建IP电话的两大技术
水声传感器网络是无线传感器网络的一个典型应用,它能够实时地、大范围地监测目标海域的信息,在采集海洋数据、保证海域安全以及预测海洋污染等方面具有广阔的应用前景。但是
生物信息学将是21世纪自然科学的核心领域之一,其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面。蛋白质是生命活动的物质基础,蛋白质分子结构可视化的目