论文部分内容阅读
目前,随着计算机技术的发展,PC集群在航空、国防、气象等高性能运算领域飞速发展,特别在石油勘探地震资料处理领域,越来越发挥着重要的作用。但是,对于一个大规模计算中心,面对多套、庞杂、不同架构的PC集群和成千上万的节点,依靠人工来进行科学、有效的管理和监控几乎是不可能的。如果没有统一的性能监控软件,就难以全面监测各套PC集群系统运行状态,从而影响集群的整体性能。本文的研究是在大庆物探公司研究院处理中心硬件架构建立的基础上完成的。针对现有的4套不同生产厂家、不同硬件架构的PC集群无法在一个窗口界面统一监控全部节点运行状态的技术难题,进行了详细的分析和深入的研究,并采用C++语言和QT工具编写、开发了监控系统。论文首先分析了 PC集群及其节点的技术特点,给出了关键性能指标的定义,包括PC集群各个节点的CPU、内存、磁盘和网络等关键指标;其次,设计了 PC集群监控系统架构,该架构采用C/S结构,包括前台显示系统和后台收集系统,后台主要目标是对节点的监控关键数据进行收集汇总;然后传输到前台,由前台对数据进行解析,并以图形显示。然后研究了监控系统关键指标数据的收集、存储、传输等关键技术,通过Linux操作系统中/proc文件系统获取运行中的进程等各类数据,采用XML的数据形式进行存储,以UDP协议作为监控数据传输协议;最后通过数据收集、存储、传输、解析和动态显示等技术手段,实现了多架构PC集群的动态监控,在统一界面,实时、动态监控多套、不同架构PC集群各个节点的CPU、内存、磁盘和网络等关键部件的性能数据,可随时了解各套PC集群系统运行状态,同时,对计算机关键部件的异常情况提供准确、实时报警功能,对更好的维护与管理各套PC集群,提高集群的利用率和整体性能起到至关重要的作用。该系统己在大庆物探一公司地震资料处理中心的四套(六组)PC集群上得到应用,应用效果良好。