论文部分内容阅读
随着互联网规模的发展,服务器集群不断平滑扩展,但众多的服务器组件数量导致故障的概率大大增加,从而对服务器集群的网络管理和可用性提出了严峻的挑战。对服务器集群进行实时状态监控,同时争取在故障发生前进行相应预警是用户迫切需要的,也是综合网络管理系统中一个极其重要的组成部分。本文在分析了服务器集群预警现状并研究了现有故障监测模型和技术的基础上,结合IPMI规范,设计并实现了一个用于Linux服务器集群的故障预警系统。首先,设计了服务器设备状态监测模型,实现了对设备硬件、系统资源、系统服务以及应用服务等信息的监测;其次,设计并实现了采用SNMP和AgentX协议的管理端和代理端通信机制;最后,设计并实现了集群故障预警模型,对其中基于预警关联关系的预警过滤模型、故障预警判定模型、故障预警通知模型和设备资源管理模型分别进行了详细的设计和实现。本系统不仅对系统软件资源信息进行故障预警监测,而且将服务器硬件资源信息纳入预警监测体系。经测试表明,本文实现的服务器集群故障预警系统能够满足综合网络管理系统对于服务器集群的故障预警需求,很好地实现了对服务器集群的实时监控和故障预警。