论文部分内容阅读
随着云计算的快速发展,社会各个领域对计算资源的需求不断增加,高性能计算集群的应用领域越发广泛,包括银行系统,购物系统,天气预报系统,科学计算系统等在内的许多系统都需要大量的计算资源。为了满足这样的需求计算集群的规模也在不断扩大。在如此庞大的计算集群中,即使节点故障率很低,也难免有很多节点发生故障。节点发生故障有很多原因,归纳起来主要有硬件,软件,环境,网络,人为等多种因素,而尤以硬件出现故障的频率最高[31]。为了减少硬件故障对系统的影响,本文对主动容错技术进行了研究。主要研究内容有以下三点: 1.为用于科学计算的大规模集群设计并实现了一套主动容错系统,以减小硬件失效对集群的影响。该系统由三个模块组成,即数据收集模块,错误预测模块和容错迁移模块。数据收集模块负责定时从系统中收集集群的硬件资源数据和系统资源数据,并将数据发送给错误预测模块进行错误预测。错误预测模块负责收数据收集模块收集的集群数据,并使用阈值算法或阈值梯度算法对数据进行分析并进行错误预测,将错误预测结果发送给错误迁移模块进行任务迁移。错误迁移模块接收各个计算节点发送的问题主机信息并从调度器获得调度结果将问题主机上的任务在主机宕机前迁移到健康主机上。 2.提出了一种适用于主动容错的错误预测算法。考虑到现有算法缺少考虑数据变化趋势的现状,将数据变化率这个因素引入错误预测,从而提出了阈值梯度预测算法。该算法不仅参考测量数值本身,还关注数据变化趋势,增加了故障预测的准确性。 3.提出了一种选择预测算法的方法。该方法依据所检测硬件数据本身特点,即由该硬件致使整个计算机系统处于的危险状态的程度。通过描述某个硬件危险系数随着硬件数据变化的规律,依照不同的规律选择与之相符的算法,能够使系统在对硬件数据进行预测时可以更加灵活和有效的选择预测算法。