论文部分内容阅读
当前,基于网络的计算机技术,促进了集群系统的发展和广泛应用。用高速网络将高性能工作站或PC按某种结构连接成集群,实现并行计算,只用很小的花费,就可以得到大型机和并行机的性能;对这些工作站或PC进行管理的软件系统就是本文要研究的集群管理系统,而作业调度技术是集群管理系统中的关键技术之一。新一代的集群管理系统的研究与实现技术是近年来高性能计算领域的主流研究方向,己推出了许多公用的或商业化的软件和产品。 本文的研究项目其目标是研制一个综合型的商业化集群管理系统(Origin CMS,以下简称OCMS),要求该系统除具有一般集群管理和作业调度系统的单一系统映像、分布式操作、资源共享、负载均衡的特点外,还应提供良好的操作性、高可靠性、可扩充性并能较好的适应气象数值预报计算的特殊要求。本文反映了作者的主要研究成果,包括以下内容: 一、针对一般集群管理系统的体系结构,提出了一种新的三层B/S结构的综合型的集群管理和作业调度系统框架,具有平台无关,远程管理等显著优点。 二、以集群管理系统OCMS的实现为背景,对复杂作业、作业调度、负载均衡、网络通讯、可操作性等进行了较为全面和深入的研究。 三、作业调度是体现公平对待用户作业,提高系统响应时间,进而提高系统性能的关键因素。鉴于作业调度在集群管理系统的重要地位,我们进行了针对集群系统的作业调度研究,提出并设计了一种实用、稳定、可靠的作业调度策略,实际应用表明是集群作业调度这一核心问题的较好的解决方案。 四、解决了气象数值预报计算任务对于作业调度的负载均衡和时效性要求。 本文在深入研究集群及其管理系统的原理和体系结构的基础上,设计和实现了OCMS集群管理系统及其核心组成部分作业调度子系统。