提升大规模集群上并行计算软件系统可靠性和服务性的方法与实践

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:zhaobaodong2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模集群上的并行计算软件需要具备处理部分节点、网络等失效的容错能力,也需要具有易于管理、维护、移植和可扩展的服务能力.针对星形计算模型,研究和开发了一套并行计算框架.利用调度节点内部的可变粒度分解器、相关队列等方法,实现了全系统容错,且具有较好的易用性、可移植性和可扩展性.系统目前可以实现300 TFlops计算能力下连续运行超过150 h,而且还具有进一步的可扩展能力.
其他文献
[目的]探讨区域动脉灌注给药在重症急性胰腺炎(SAP)治疗中的作用.[方法]回顾性分析本院2002年2月至2009年6月收治的SAP患者68例的临床资料,按不同阶段的治疗方法分两组:A组(对照
【目的】探讨原发性肝细胞癌的动态CT增强(DECT)表现与细胞DNA增殖水平的关系及其临床意义。【方法】原发性肝细胞癌(PHCC)35例,根据动态CT增强(DECT)表现及衰减快慢表现分为A、B两
【目的】评价Holland等提出的单疱病毒性角膜炎(HSK)新分类法在诊治HSK时的指导意义及皮质类固醇类药物在治疗HSK时的作用。【方法】对本院临床诊治的73例(92眼)HSK患者应用Holla
【目的】探讨医学本科生亚健康疲劳现状及相关因素。【方法】采用自制亚健康调查表对广东某医科大学5800名学生进行亚健康疲劳调查分析。亚健康疲劳诊断参照《亚健康中医临床
随着CMOS工艺的不断进步,单个芯片上集成的晶体管数目快速增长,使得由高能粒子和α粒子辐射产生的软错误逐渐成为影响微处理器可靠性的重要因素.通过计算体系结构脆弱因子,量