三层架构超级计算环境优化与实现研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:zuozqzq7013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着超级计算技术的发展,超级计算能力有了大幅提升。与此同时,以资源聚合为目标的超级计算环境建设方兴未艾,从网格计算到云计算,如何将分布的超级计算资源整合在一起,对外提供统一的Web化服务成为了研究热点。三层架构超级计算环境,是中科院十一五信息化建设重大专项。其目标是整合包括总中心、八家分中心以及多家所级中心在内的计算资源。建成的超级计算环境,将具有总中心全局调度,分中心区域调度的特点。   本文研究了三层架构超级计算环境设计和实现中的若干关键问题,包括三层架构的部署问题,资源聚集和信息服务问题,作业服务和文件服务等,设计实现了三层架构超级计算环境核心支撑软件SCE。研究目标是聚合三层架构超级计算环境资源,为用户提供可靠易用的超级计算使用环境,为Web化使用方式提供接口和支持。本文的主要内容和成果包括:   1.提出了三层架构超级计算环境分块部署模型SCEDM,通过网格服务器和SCE相应软件模块的部署,实现了总中心、分中心、所级中心三层架构的部署和连接。分层部署是SCE区别于其它超级计算环境支撑软件的主要特征,之后的问题研究,都建立在分层部署的基础之上。   2.提出了用远程执行命令的方式来使用超级计算机的SCE-RAS资源聚合机制。SCE-RAS将网格软件与资源层隔离,超级计算机上不需要安装任何软件模块,通过在分中心的网格服务器上增加HPC配置信息的方式来实现将HPC加入超级计算环境的目的。当HPC因故退出超级计算环境时,系统将显示该超级计算机不可达,而当HPC回到环境中时,系统又能很快将HPC接回超级计算环境,做到了超级计算机完全无缝进出超级计算环境。   3.实现了SCE作业提交与管理系统SCE-SAM。SCE-SAM将用户提交的所有作业信息存储在总中心的数据库和文件服务器上。作业由总中心根据资源情况进行调度,分中心负责在自身区域内进行作业的局部调度,而所级中心则接受分中心网格服务器所发起的作业提交请求进行计算。SCE-SAM实现了三层架构超级计算环境总中心全局调度,分中心区域调度理念,提供了作业的持久化存储以及作业的迁移机制,保证了作业的可靠性。   4.实现了SCE文件管理服务SCE-DMS。SCE-DMS提出了基于作业ID来管理文件的理念,不仅很好地解决了网格服务器上文件的管理,也为作业重用机制提供了支撑。基于作业ID的文件管理理念也为将来工作流作业的支持提供了文件描述接口。   5.实现了三层架构超级计算环境编程模型HMW。在深入研究了分布式编程模型的基础上,实现了分层的Master/Worker模型HMW。HMW保持了Master/Worker编程模型的容错特性,同时实现了对SubMaster的容错支持。HMW针对可分作业的容错过程进行了优化,使得可分作业在出错后能够重用之前已经计算完成的结果,提升了容错效率,缩短了容错后的整体计算过程。   6.提出了三层架构超级计算环境的容错框架。在实现了三层架构超级计算环境基本功能的基础上,本文探讨了超级计算环境可靠性若干问题,提出了三层架构超级计算环境的容错框架,在确保作业可靠性和资源聚集可靠性基础上,针对环境访问可靠性、中央服务器可靠性以及计算可靠性这三方面进行了重点研究,提出了相应的解决办法。
其他文献
随着计算机、通信和多媒体技术的高速发展,特别是互联网络的出现和大范围普及,数据图像呈爆炸式增长趋势,使图像资源数量迅速增加,过去基于关键字的分类技术显然不能满足人们
OA(Office Automation:办公自动化)是企业信息化建设的重要组成部分。办公自动化系统的发展恰好与数据、信息和知识的演变同步,即以数据为主要处理内容的第一代办公自动化发展
Android版本的频繁更新是导致Android生态碎片化问题的一个重要原因。为了使Android应用可以在多个Android版本上使用,应用程序开发者不得不为其开发的应用进行兼容处理。然而
SaaS(软件即服务)是近几年新起的一种新的软件交付和商业模式,并且随着云计算概念的提出和普及,SaaS成为了标准的云应用层模型。多承租架构是SaaS型软件的核心实现技术,该架
数控系统中的运动轨迹控制技术是确保数控高速、高精以及高表面质量加工的关键技术,也是评价数控系统性能的重要指标。国内外相关研究机构及各大数控系统开发厂商均将其作为努
电力系统的无功优化是提高电能质量、降低网络有功损耗和保证电力系统经济安全运行的重要措施。随着社会的发展和人口的增加,电力系统的负荷急剧增加,因此对能稳定的应用到更大规模电力系统无功优化问题的新的优化计算方法的研究是有重要意义的。社会情感优化算法是一种新的模拟人类行为的群智能优化算法,本文首先对社会情感优化算法做了具体的描述:为模拟人类能够利用自身的情感准确决策的能力,社会情感优化算法构建了情感集和
在传统机器学习中,为了保证训练得到的分类模型具有高准确性和可靠性,都有两个基本的假设:(1)用于学习的训练样本与新的测试样本满足独立同分布条件;(2)必须有足够可利用的训练样
随着各个行业对计算能力需求的不断增长,云计算得到了迅猛的发展。云计算通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的系统,将大量计算资源统一管理和调
命名实体识别是指识别出句子中具有特定含义的名词,它是信息抽取、自动问答、机器翻译等自然语言处理任务的基础工作之一。手机3D动画自动生成技术由陆汝钤院士于2008年提出,
网络与信息处理技术的飞速发展使人类进入了大数据时代,数据量呈指数级增长,各行各业都面临海量数据处理的压力。自治区某物联网系统中的应用日志还停留在手工排查阶段,排查日志