论文部分内容阅读
网络容错服务器是保障网络任务正确执行的关键设备.服务器中任何信息的丢失和破坏、服务器的异常停机都会对网络的服务能力产生重大影响,因此要求网络容错服务器有连续运行的能力,即高可用性.哈尔滨工业大学容错计算技术研究室研究开发了具有高可用性的网络容错服务器,适用于野外作业和车载环境.网络容错服务器是采用了系统级冗余和部件级冗余的双机系统,工作在双机互备援或双机热备份模式下.为了提供可靠的不间断的服务,实现故障的自动切换,故障检测成为提高系统高用性的关键.通过借鉴高可用集群技术,采用单机自检测与双机互检测相结合的方法,可以在系统开销小的情况下及时准确地定位故障.在该系统中故障检测的主要目的是检测本机是否正常工作.单机自检测采用周期运行方式,定期对被检测对象进行测试、故障诊断并触发相应的警报动作.单机自检测实现了服务级的检测粒度,解决了服务警报交叠问题;同时,对用户配置的需检测进程,本机硬件资源及系统网络设备进行检测.这种检测机制不但增大了故障检测的覆盖率,也为服务迁移和系统切换提供了依据.该文采用心跳技术实现双机互检.通过心跳检测对等主机的运行状态,网络通讯状态.此外,协同模块需要通过心跳来实现IP接管和服务、共享设备切换.双机互检模块周期运行,如果在规定时间内收到心跳消息,将对收到的信息进行诊断,发现故障后向协同模块发出警告信息.心跳间隔是心跳技术的关键问题,为防止由于网络传输造成心跳消息丢失产生的误判,当一台主机有问题或出现故障时,采用了提高心跳频率的方法,直到最小心跳时间仍然没有收到心跳信息,才确认对等主机故障;当出现双机互指时,协同模块向仲裁模块发出仲裁请求,以定位故障主机.该文研究了网络容错服务器的检测机制,单机自检测技术和双机互检测技术.在网络容错服务器上设计并实现了单机自检测模块和双机互检模块,使容错管理软件获得了较高的故障覆盖率,提高了网络容错服务器的可用性.