论文部分内容阅读
研制具有千万亿次计算能力的并行计算机系统是当前的重大挑战之一。曙光5000高效能计算机系统是中国科学院计算技术研究所国家智能计算机中心开发的面向千万亿次计算的超级计算机。曙光5000互连网络是为曙光5000系统设计的可扩展高性能网络,实现结点间的高速互连。
在千万亿次规模的系统中,互连网络设计面临新的挑战。高性能结点和大规模是构建千万亿次系统的主要技术趋势,不断提高的结点计算能力要求互连网络提供更高的性能,而不断增大的规模又对互连网络扩展性提出了更高的要求。此外,随着系统规模的增大,集合通信的执行时间也在不断增长,制约了应用的扩展性,集合通信的性能需要得到进一步的优化。除性能之外,可靠性问题也随着系统规模的扩大而日益严重。
针对上述问题,本文从互连网络体系结构、网络接口控制器设计、交换机结构设计和集合通信性能优化等几个方面,对互连网络设计方法进行研究,提出了曙光5000高性能互连网络的设计。曙光5000互连网络采用多轨网络设计,在一定程度上打破了工艺对网络带宽的限制,并提高短消息的消息率。多轨网络的单层网络采用胖树拓扑,虚切入交换、源址路由和基于绝对信用的流控,以满足互连网络在性能和扩展性上的需要。为满足互连网络可管理性的需要,曙光5000互连网络设置了带外管理网络,对数据网络进行监控管理,实现对故障的及时诊断和恢复。此外,本文从性能、可实现性和扩展性三方面对曙光5000网络接口控制器和曙光5000交换芯片的设计进行了研究。
为实现集合通信性能优化,曙光5000互连网络提供了嵌入Barrier和多播网络支持。曙光5000嵌入Barrier网络充分利用胖树拓扑的特点,以交换机为根实现Barrier树形算法,并提供链路点对点可靠性支持,相比于现有Barrier通信机制,可以获得更低的Barrier延迟和更好的扩展性。嵌入多播网络则重点解决多播死锁和多播路径选择问题,本文提出的HLSE多播路径选择算法,可以充分的利用胖树中的负载较轻的路径,测试结果表明,相比于已有的负载均衡路径选择算法,可以获得三倍的性能提升。
基于上述设计,本文实现了曙光5000互连网络原型系统。曙光5000交换芯片首先基于FPGA进行逻辑功能验证,在功能验证正确的基础上,进行了ASIC实现。曙光5000交换芯片集成了20M晶体管,共1053个管脚(其中690个I/O管脚),采用Flipchip封装,工作频率为156.25MHZ。测试结果表明曙光5000互连网络原型系统实现了较高的性能,其最低通信延迟为1.73us,通信带宽为634.69MByte/s(为最高有效数据带宽的99.17%)。
为进一步验证曙光5000互连网络设计的可扩展性,本文开发了超大规模互连网络模拟器HPPNetSim,对超大规模下的曙光5000互连网络的性能进行预测。HPPNetSim的模拟结果表明,当扩展至上万结点规模后,在均匀随机分布的通信模式下,曙光5000互连网络仍能获得67%的单播吞吐率,相比1024结点规模仅有5.6%的性能下降,具有较好的扩展性。