论文部分内容阅读
高性能计算是信息技术的一个重要分支,被公认是继理论和实验科学之后,人类认识未知世界的第三大方法,高性能计算水平也已成为衡量一个国家核心竞争力的关键指标。超级计算中心作为提供高性能计算能力的一个主要场所,已从封闭走向开放,超级计算中心的网络及数据传输系统的可靠性、可用性、安全性也变得非常重要。本论文对超级计算中心的网络及数据传输系统进行了设计和实现。从Internet出口链路、超级计算中心内部网络及超级计算机三个层面,对数据传输进行了研究,发现数据传输不稳定问题的主要原因在负载不均衡。特别是国产超级计算机,由于技术水平的原因,虽然有多个接入结点和多个存储结点,但由于这些资源是共享的并且它们的调度是静态的,当有多个用户同时集中使用或单个用户大量使用其中某些资源时会引起严重的负载不均衡从而导致数据传输的不稳定。为此,论文重点设计了超级计算中心的网络系统。采用七层交换机方便地解决了Internet出口链路的负载均衡问题,采用冗余的网络结构解决了内部网络的负载均衡,在可靠性、可用性和安全性方面也做了大量的工作。论文的另一部分重要工作是在LVS集群软件的基础上提出了一种新的具有良好适应性的负载动态反馈调度算法。目前,LVS软件中共有八种调度算法,它们均属于静态调度算法。由于静态调度算法在很大程度上依赖于调度任务和服务器的静态属性,而我们知道,任务具有波动性,且外界环境也在不断地变化,因此通常静态调度算法无法很好地实现负载的均衡。为了将任务更均衡地分配给各后端服务器,论文提出了动态反馈调度算法。动态反馈调度算法通过监视和评估各个服务器的当前负载,然后由此选择负载最轻的服务器去处理新的任务。最后,利用搭建的实验环境,对动态反馈调度算法进行评测。为模拟负载不均衡的情况,论文对其中一台服务器加上额外的负载。测试结果表明,相比其它调度算法,动态反馈调度算法能够更好地完成负载均衡的任务。特别地,采用动态反馈调度算法,使系统具有可伸缩的功能。由于集群系统中的负载均衡器定期收集后端服务器的相关信息,因此某台服务器出现故障后,负载均衡器能识别并不再给它分派任务,从而使整个系统对外表现来说,服务不会终止,而仅是服务能力略有下降。