论文部分内容阅读
随着超级计算技术的发展,超级计算能力有了大幅提升。与此同时,以资源聚合为目标的超级计算环境建设方兴未艾,从网格计算到云计算,如何将分布的超级计算资源整合在一起,对外提供统一的Web化服务成为了研究热点。三层架构超级计算环境,是中科院十一五信息化建设重大专项。其目标是整合包括总中心、八家分中心以及多家所级中心在内的计算资源。建成的超级计算环境,将具有总中心全局调度,分中心区域调度的特点。
本文研究了三层架构超级计算环境设计和实现中的若干关键问题,包括三层架构的部署问题,资源聚集和信息服务问题,作业服务和文件服务等,设计实现了三层架构超级计算环境核心支撑软件SCE。研究目标是聚合三层架构超级计算环境资源,为用户提供可靠易用的超级计算使用环境,为Web化使用方式提供接口和支持。本文的主要内容和成果包括:
1.提出了三层架构超级计算环境分块部署模型SCEDM,通过网格服务器和SCE相应软件模块的部署,实现了总中心、分中心、所级中心三层架构的部署和连接。分层部署是SCE区别于其它超级计算环境支撑软件的主要特征,之后的问题研究,都建立在分层部署的基础之上。
2.提出了用远程执行命令的方式来使用超级计算机的SCE-RAS资源聚合机制。SCE-RAS将网格软件与资源层隔离,超级计算机上不需要安装任何软件模块,通过在分中心的网格服务器上增加HPC配置信息的方式来实现将HPC加入超级计算环境的目的。当HPC因故退出超级计算环境时,系统将显示该超级计算机不可达,而当HPC回到环境中时,系统又能很快将HPC接回超级计算环境,做到了超级计算机完全无缝进出超级计算环境。
3.实现了SCE作业提交与管理系统SCE-SAM。SCE-SAM将用户提交的所有作业信息存储在总中心的数据库和文件服务器上。作业由总中心根据资源情况进行调度,分中心负责在自身区域内进行作业的局部调度,而所级中心则接受分中心网格服务器所发起的作业提交请求进行计算。SCE-SAM实现了三层架构超级计算环境总中心全局调度,分中心区域调度理念,提供了作业的持久化存储以及作业的迁移机制,保证了作业的可靠性。
4.实现了SCE文件管理服务SCE-DMS。SCE-DMS提出了基于作业ID来管理文件的理念,不仅很好地解决了网格服务器上文件的管理,也为作业重用机制提供了支撑。基于作业ID的文件管理理念也为将来工作流作业的支持提供了文件描述接口。
5.实现了三层架构超级计算环境编程模型HMW。在深入研究了分布式编程模型的基础上,实现了分层的Master/Worker模型HMW。HMW保持了Master/Worker编程模型的容错特性,同时实现了对SubMaster的容错支持。HMW针对可分作业的容错过程进行了优化,使得可分作业在出错后能够重用之前已经计算完成的结果,提升了容错效率,缩短了容错后的整体计算过程。
6.提出了三层架构超级计算环境的容错框架。在实现了三层架构超级计算环境基本功能的基础上,本文探讨了超级计算环境可靠性若干问题,提出了三层架构超级计算环境的容错框架,在确保作业可靠性和资源聚集可靠性基础上,针对环境访问可靠性、中央服务器可靠性以及计算可靠性这三方面进行了重点研究,提出了相应的解决办法。