论文部分内容阅读
随着通讯与计算机技术的迅速发展,越来越多的计算机系统用来提供各种及时可靠的服务,如何保证计算机系统运行可靠、稳定和持久是需要解决的关键问题,这就需要系统具备冗余和容错能力。本文在对影响系统可用性因素分析的基础上,考虑到系统成本和企业适用情况以及方案灵活性等因素,设计了一套基于无磁盘阵列的主从结构硬件平台运行的双机容错软件。论文首先概述了容错计算机系统及国内外发展现状,对主要工作做了简要介绍。其次,对双机热备工作模型和主要技术进行综述,比较双机热备的两种实现方式:共享存储和数据同步,根据双机系统Markov模型分析其高可用性。第三,论文给出了双机容错软件的主要技术,其中单一系统映像和故障诊断及恢复技术是实现的重点。第四,根据双机热备的工作模型和技术分析,在设计中将双机容错软件分为心跳检测模块和资源管理模块两部分。心跳检测模块包括节点故障检测、系统服务故障检测、资源故障检测等,同时保持双机连接;资源管理模块实现主/从机切换,资源状态查询、接管等任务。该系统以双节点的集群系统为目标,并且具有良好的扩展性和可移植性。最后进行实现和说明,测试了双机容错软件基本功能,并进行了双机视频切换的应用实验,测试结果表明能够保持系统稳定运行,实现企业核心业务基本功能,达到设计目标。