论文部分内容阅读
随着互联网产业的迅猛发展,“大数据”时代已然到来。Hadoop凭借其高容错性、高可靠性、高扩展性、高效性、低成本和简单等优势在海量数据处理方面大放异彩。但是随着Hadoop集群规模的不断扩大、使用人员的不断增加,集群的运维工作越来越复杂,运维人员需要对其性能进行实时的监控分析以保障集群高性能地运转。本文首先对Hadoop集群监控指标和监控技术进行了概述,然后根据集群运维人员的需求设计并实现了 Hadoop数据分析平台性能监控系统,该系统能帮助集群运维人员实时了解集群状态、各组件运行状况及各服务器节点资源使用情况,从而及时处理集群故障,保障集群正常运转。接着本文经过对HDFS数据分布和访问信息的采集与分析,发现实验室集群HDFS数据分布存在不均衡现象,且各个DataNode上数据的访问与DataNode性能资源消耗趋势保持一致。因此本文提出了 HDFS数据分布优化策略,研究了数据分布对HDFS数据访问和作业运行的影响,最后通过实验得出以下结论:balancer程序能优化HDFS的数据分布,实现数据的分布均衡,数据分布越均衡,用户的文件访问时间和作业运行时间越短。随着并发访问文件的用户数和并发作业数的增加,数据分布对文件访问时间和作业运行时间的影响越来越大。