论文部分内容阅读
认真研究今年中国高性能计算TOP100排名的人会发现一件奇怪的事情:蝉联榜首的天河一号配置和峰值性能较去年没有任何变化,而去年排名第二、今年排名第四的曙光星云今年配置和峰值性能反而降低了,处理器核心数从去年的120640降到了52416,峰值性能从去年的2984.3Tflops降至了1296.3Tflops。
“事实上,星云的变化,是曙光和国家超算深圳中心协商后,人为主动地降低的。”曙光副总裁聂华向记者透露,星云今年被一拆为二,一部分面向传统科学计算和高性能计算,另一部分则在拆分的同时,去除了一些加速部件,增添了一些灵活通用、面向分布式网络的部件,做好了迎接云计算应用的准备。
这一变化体现了曙光的未来策略的转变。“曙光今年很重要的工作,是在维持原有高性能计算领先优势的基础上,大力推广云计算。”聂华说。
不过,高性能计算机与云计算集群能够很容易地转换么?
高性能计算机也能做云计算
“确实有一种观点认为,高性能计算机不能用来做云计算。”聂华对高性能计算机和云计算的集群系统进行了比较:“传统意义上的高性能计算机,其节点间的耦合非常紧密。而云计算的集群系统耦合比较松散。但是,从技术角度来看,松耦合的系统想改进成紧耦合系统是非常难的事情,而紧耦合系统按照松耦合的系统来使用,在技术上不存在任何障碍。”
今天,高性能计算和云计算在技术上已经有很多共同点,云计算很多技术,尤其是基础架构方面的技术,其实是对高性能计算机技术的延伸。“最早的高性能计算机为了让耦合度更紧密,需要采用专用部件、网络。发展到通用集群架构之后,不再像传统大型机一样需要将整个系统整合到一台设备中,与云计算所用的集群技术重合度越来越高。”聂华表示,曙光在高性能计算方面的很多技术积累完全可以应用在今天的云计算系统上。当然,也有一些虚拟化方面的技术、分布式网络的技术是与云计算一同出现的。
同时,高性能计算机也开始面临一些新的问题。“计算能力充足之后,高性能计算机也要解决I/O墙的问题,因此也衍生出了高吞吐计算机的概念。今天,高性能计算机也需要解决进行大量数据交换的问题。这些恰恰是云计算主要面对的问题。”聂华表示,从这一发展过程来看,高性能计算机在技术角度上完全可以在未来承担云计算的任务。只不过,高性能计算机成本更为高昂,从运营角度来看,所付出的成本等代价过高。因此,高性能计算机与云计算集群系统依然需要各司其职。
要为应用做计算机
未来,高性能计算也会出现不同的分支。“传统科学计算中,有一类问题的特点是计算规模非常庞大、数据关联度比较低,像气象问题等。这些计算以后会更加趋向于通过专门的加速器来进行加速。另一类是一些传统工程计算,这些计算往往涉及到一些大型商业软件,因此系统架构不会发生太大变化。”聂华说。
“与专用计算机相比,我们设计过的最难高性能计算机恰恰是为上海超算中心设计的更通用的计算机。”说到架设云计算系统和高性能计算系统的不同,聂华半开玩笑地举例:“针对特定应用开发的专用系统,只需要某一方面的性能足够强。但上海超算这样的系统对各个方面的指标都有要求,即使只有1%的应用对某项指标有要求,也需要达到这个标准。”
面向云计算的系统,其指标要求和高性能计算不尽相同。而且,高性能计算还可以靠虽然未必全面,但大家普遍认可的Linpack标准进行衡量,但云计算还没有这样一个可以让大家普遍接受的衡量标准。
“云计算最重要的是什么?有人说是运营成本,有人说是易用性、方便性、弹性,目前还没有找到一个最具参考性、最有效的指标。只是在某一方面有一些标准出现,例如,对能耗,有QUE这一指标进行衡量。一个行业普遍认可的标准不是短期内能出现的。实际上,没有一个应用的过程,你很难去总结出这样一个指标,也很难进行针对性的提升。”聂华说。
星云的拆分,正是为了满足应用的需求,真正将机器用起来。“在星云面向云计算的一部分中,虽然撤掉了一些加速部件,但它的内存、存储、网络等方面的指标和过去不可同日而语。”聂华说,“这恰恰体现了一个理念,那就是,要为应用造计算机,让一个超算中心能够运营起来。”
平台的建立,是应用增长的基础。“一台大型计算机的出现,会拉动整个行业计算规模的提升。”聂华说。他打比方说,曙光要做的是将高速公路修好。路修好了,在经济快速发展的背景下,路上的车一定会越来越多。
“事实上,星云的变化,是曙光和国家超算深圳中心协商后,人为主动地降低的。”曙光副总裁聂华向记者透露,星云今年被一拆为二,一部分面向传统科学计算和高性能计算,另一部分则在拆分的同时,去除了一些加速部件,增添了一些灵活通用、面向分布式网络的部件,做好了迎接云计算应用的准备。
这一变化体现了曙光的未来策略的转变。“曙光今年很重要的工作,是在维持原有高性能计算领先优势的基础上,大力推广云计算。”聂华说。
不过,高性能计算机与云计算集群能够很容易地转换么?
高性能计算机也能做云计算
“确实有一种观点认为,高性能计算机不能用来做云计算。”聂华对高性能计算机和云计算的集群系统进行了比较:“传统意义上的高性能计算机,其节点间的耦合非常紧密。而云计算的集群系统耦合比较松散。但是,从技术角度来看,松耦合的系统想改进成紧耦合系统是非常难的事情,而紧耦合系统按照松耦合的系统来使用,在技术上不存在任何障碍。”
今天,高性能计算和云计算在技术上已经有很多共同点,云计算很多技术,尤其是基础架构方面的技术,其实是对高性能计算机技术的延伸。“最早的高性能计算机为了让耦合度更紧密,需要采用专用部件、网络。发展到通用集群架构之后,不再像传统大型机一样需要将整个系统整合到一台设备中,与云计算所用的集群技术重合度越来越高。”聂华表示,曙光在高性能计算方面的很多技术积累完全可以应用在今天的云计算系统上。当然,也有一些虚拟化方面的技术、分布式网络的技术是与云计算一同出现的。
同时,高性能计算机也开始面临一些新的问题。“计算能力充足之后,高性能计算机也要解决I/O墙的问题,因此也衍生出了高吞吐计算机的概念。今天,高性能计算机也需要解决进行大量数据交换的问题。这些恰恰是云计算主要面对的问题。”聂华表示,从这一发展过程来看,高性能计算机在技术角度上完全可以在未来承担云计算的任务。只不过,高性能计算机成本更为高昂,从运营角度来看,所付出的成本等代价过高。因此,高性能计算机与云计算集群系统依然需要各司其职。
要为应用做计算机
未来,高性能计算也会出现不同的分支。“传统科学计算中,有一类问题的特点是计算规模非常庞大、数据关联度比较低,像气象问题等。这些计算以后会更加趋向于通过专门的加速器来进行加速。另一类是一些传统工程计算,这些计算往往涉及到一些大型商业软件,因此系统架构不会发生太大变化。”聂华说。
“与专用计算机相比,我们设计过的最难高性能计算机恰恰是为上海超算中心设计的更通用的计算机。”说到架设云计算系统和高性能计算系统的不同,聂华半开玩笑地举例:“针对特定应用开发的专用系统,只需要某一方面的性能足够强。但上海超算这样的系统对各个方面的指标都有要求,即使只有1%的应用对某项指标有要求,也需要达到这个标准。”
面向云计算的系统,其指标要求和高性能计算不尽相同。而且,高性能计算还可以靠虽然未必全面,但大家普遍认可的Linpack标准进行衡量,但云计算还没有这样一个可以让大家普遍接受的衡量标准。
“云计算最重要的是什么?有人说是运营成本,有人说是易用性、方便性、弹性,目前还没有找到一个最具参考性、最有效的指标。只是在某一方面有一些标准出现,例如,对能耗,有QUE这一指标进行衡量。一个行业普遍认可的标准不是短期内能出现的。实际上,没有一个应用的过程,你很难去总结出这样一个指标,也很难进行针对性的提升。”聂华说。
星云的拆分,正是为了满足应用的需求,真正将机器用起来。“在星云面向云计算的一部分中,虽然撤掉了一些加速部件,但它的内存、存储、网络等方面的指标和过去不可同日而语。”聂华说,“这恰恰体现了一个理念,那就是,要为应用造计算机,让一个超算中心能够运营起来。”
平台的建立,是应用增长的基础。“一台大型计算机的出现,会拉动整个行业计算规模的提升。”聂华说。他打比方说,曙光要做的是将高速公路修好。路修好了,在经济快速发展的背景下,路上的车一定会越来越多。