论文部分内容阅读
随着云计算和大数据的发展,云数据中心的基础实施承载了大量的应用,云基础设施在运行过程中会产生大量的告警。由于云数据中心的基础设施规模庞大,导致云数据中心的告警产生规模效应,给云数据中心稳定的服务交付带来巨大隐患。云数据中心告警存在海量性、实时性、冗余性和强时间关联性的特点,如果能够及时预测出云数据中心将要产生的告警,并做好相应的告警预案,将极大地减少因为告警处理不及时导致的宕机、服务不可用等损失。因此,为了提高云数据中心告警处理的效率,提升云数据中心服务的稳定性,研究云数据中心告警实时响应方法具有重要的意义。 为了解决上述问题,本文提出了一种基于有向概率图的告警预测方法,该方法使用有向图表示云数据中心告警关系,其中,用有向图的顶点表示告警类型,顶点之间的有向边表示告警之间发生的先后关系,边的权值表示有向边连接的两个顶点的之间的偏序关系的强弱。使用该有向概率图进行预测时,根据云数据中心当前产生的告警,在图中寻找该告警所代表的节点,并在该告警节点找出其概率最大的边所对应的节点作为预测告警。为了提高算法的准确率和性能,论文对算法进行了大量的优化改进。 为了验证该告警预测方法的可行性,论文使用真实的云数据中心告警数据进行测试和验证,实验结果表明,算法的预测的准确率保持在90%左右,且算法的预测性能保持在微秒级别。实验结果表明,本论文提出的面向大规模基础设施的告警分析及实时响应方法为告警预案和运维自动化夯实了基础。