论文部分内容阅读
网格计算突破了现有的计算限制,将分布的计算资源组织起来,充分利用了空闲资源,实现了复杂的科学计算与工程应用问题的协同解决,为用户提供了强大的计算能力,极大地推动了科学研究和工程实践的发展。然而,由于网格系统本身及其资源的高度动态异构性,网格计算平台较传统的计算平台有更大的出错机率,故障的频繁发生已成为困绕科学家、工程技术人员和网格用户的主要问题之一。如何针对网格系统的特点,引入恰当的容错机制,切实提高网格计算的可靠性和稳定性,是网格界的研究热点和难点。本文基于相关研究成果的对比研究,总结了网格计算的容错需求,给出了一种动态容错服务策略,并据此提出了相应的自适应错误检测算法、基于服务质量的错误处理服务选择算法和高效的错误恢复算法,分别是:①根据网格计算的特点,总结了网格环境下的特殊容错需求;结合用户的服务质量要求,定义了网格环境下进程错误、处理器错误和网络错误等基本概念;建立了包括网格错误检测与网格错误管理的动态容错服务;给出了相应的动态容错服务策略。②针对现有网格计算环境出错机率较大和已有错误检测算法不能有效满足网格计算错误检测需求问题,提出了一套网格环境下的自适应错误检测算法。根据网格系统的特点,基于不可靠错误检测思想,结合心跳策略和灰色预测方法,设计了一种动态心跳机制,给出了预测模型和实时预测策略,并提出了基于该动态心跳机制的网格进程间错误检测算法;结合主动网方法,提出了错误检测器的动态层次式组织算法,从理论上分析了相关算法的性能。最后,通过仿真实验进一步验证了相关算法的正确性和有效性。③针对检测到错误发生时,如何根据不同网格应用程序需求选择恰当的错误处理服务问题。结合网格计算的特点,提出了一种基于服务质量的错误处理服务选择算法。在给出几种常用错误处理技术的形式化定义基础上,建立了可扩展的网格错误处理服务质量模型。同时,将动态的错误处理服务选择问题转化为基于服务质量的多属性决策问题,建立了相应的决策模型,并利用主客观赋权模式确定各个服务质量属性的权重系数,弥补单纯主观或客观赋权模式的不足。在此基础上,提出了基于服务质量的错误处理服务选择算法,并通过仿真实验验证了算法的正确性和有效性。④针对网格计算环境下主机分布范围广、参与计算主机数量大、消息传输延迟大,传统的错误恢复方法不能有效满足网格计算错误恢复需求问题。基于回卷错误恢复方法,结合消息日志协议,提出了可用于网格计算环境的自适应错误恢复算法。根据网格计算环境各节点间的带宽不固定且系统可能动态发生变化,基于乐观消息日志协议,设计了一种能够随网格系统的动态变化而变化的自适应乐观消息日志协议。在此基础上,根据网格计算涉及的范围广、规模大等特点,建立了可扩展的网格计算模型,提出了相应的自适应错误恢复算法。最后,通过理论分析和仿真实验验证了自适应乐观消息日志协议和错误恢复算法的正确性和有效性。综上,本文针对网格计算的容错需求,提出了一套涵盖动态容错服务策略及相关算法的完整网格系统容错解决方案。理论分析和仿真实验结果表明:相关策略及算法是正确、有效的,可用于网格计算环境下的容错处理,有利于提高网格系统的可靠性。