论文部分内容阅读
随着互联网技术普及和信息化技术的不断提高,社会上各个领域对信息化的要求越来越高,处理的数据也不断增加。云计算已从概念落实到实际应用中,发展已臻成熟,已发展为可个性化定制、伸缩可扩展、面向服务的公有云或私有云。云平台的服务质量对于云平台有着重要的意义,监控是云计算平台的重要组成部分,它是云计算平台中很多诸如网络分析、系统管理、作业调度、负载均衡、事件预测、故障检测以及恢复操作的前提,可以帮助云计算平台动态量化资源使用、检测服务缺陷、发现用户使用模式、辅助资源调度模块决策,可以提高云计算平台的服务质量。BC-PDM (Big Cloud of Parallel Data Mining)是全球最大的电信运营企业的商务智能应用需求背景,旨在针对海量数据提供高效、准确、便捷的数据分析服务。本系统是基于Hadoop集群开发的,本论文主要介绍了Hadoop集群的故障监控的研究与实现过程。本文首先介绍了研究背景和研究现状,然后针对项目本身的需求,给出总体功能设计和各模块设计。本文使用Ganglia和Nagios这两个开源监控工具,通过对工具的深入调研,总结了其工作原理及优势、缺点等,将Ganglia和Nagios优势结合,同时优化Ganglia的容错机制,实现故障监控和资源监控的功能。Ganglia和Nagios的监控数据在存储方面都存在一些问题,系统通过持久化存储工具将监控数据转存到Mysql数据库中,进行监控数据统一管理和分析,优化监控数据存储问题。本系统利用开源监控工具Ganglia和Nagios,通过系统需求分析、系统关键点研究,最后完成了资源监控和故障监控功能。实现了对云平台中的物理资源、虚拟资源、服务资源等的全面监控和资源利用率的分析,并根据分析实现邮件、短信等多种方式的故障监控,以达到资源监控和故障监控的目的,保证云平台的正常运行。最后应用以上的研究实现了一个云平台监控系统,其运行效果表明本文的策略是有效可行的。