基于时空关联分析的集群系统故障预测方法

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wenzhiqiang963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大规模集群系统被广泛应用于高性能计算领域。然而,随着集群规模的迅速扩大、服务类型和组件结构的日益复杂,故障的发生已经成为常态。故障预测作为一种主动式的可靠性管理和故障预防机制,通过分析系统的历史状态信息来预测系统未来是否会发生故障,对于提高集群系统的可用性和适用性具有重要意义。集群由多个计算节点松耦合形成,故障可能发生于节点和系统两个层面,即集群中的节点可能由于硬件或软件缺陷产生故障,且节点故障的传播和演变可能会引发集群范围内的系统故障。研究发现,集群系统中节点指标与节点故障之间、节点故障实例之间呈现出明显的时空关联性,具体表现为:1)时间关联:节点性能指标在时间维度上的异常波动是节点故障的征兆;系统日志中频繁出现的事件序列预示着系统故障的演变过程。2)空间关联:有潜在故障的节点其性能指标会与其它承载类似服务的正常节点出现差异;节点故障会因系统的协作通信引起其他节点相继发生故障。本文通过深度挖掘故障的时空相关性,分别对节点故障和集群系统故障的精准预测展开研究。现有的节点故障预测方法多基于分类预测模型对节点性能监测指标进行分析,存在故障症状提取过于粗糙、故障样本和正常样本分布不平衡等问题。为此,本文提出了一种基于时空特征提取的节点故障预测方法(Failure Prediction Method Based on Spatio-temporal Feature Extraction,FP-STE)。针对特征提取粗糙的问题,采用改进的循环神经网络(Improved GRU based on HighWay network,HW-GRU)和卷积神经网络CNN分别提取节点参数的时序特征和空间特征,增加不同类型故障症状的区分度,提升预测的准确度。另外考虑到样本不平衡对多分类预测精度的影响,本文基于SMOTE过采样和代价敏感学习对集成学习模型XGBoost进行改进。实验结果表明,FP-STE算法的预测精度优于其他方法,能有效区分多故障类型。现有的系统故障预测方法大多基于事件驱动的方法对系统日志进行分析,普遍存在预测召回率低、运行效率差、知识库更新开销大等缺点。为此,本文提出了一种基于因果关联分析的动态故障预测方法(A Dynamic Failure Prediction method for cluster system based on Causal Association Analysis,DFP-CAA)。该方法采用一种新的日志预处理算法,能够根据事件的语义相似度和时间关联性实现自适应的典型故障事件识别和日志过滤。之后针对规则提取和更新的低效性和冷启动问题,采用改进的加权增量关联规则挖掘算法IWAprori挖掘频繁事件序列,生成故障衍生规则,并在系统的整个生命周期自动触发规则更新。再者,考虑到事件之间的因果关联性和规则这类知识表达方式推理效率低等问题,设计了一种加权因果依赖图来表示事件规则,并基于因果图的正向不确定性推理对未来可能发生的故障事件进行预测。最后,通过三个真实的系统日志LANL、Blue Gene/L、Blue Gene/Q验证了改进方法的有效性和优越性。
其他文献
图谱理论是代数图论及其应用研究领域的一个重要方向,矩阵在研究图谱理论中发挥了重要的作用.同时,人们引入了与超图的结构有密切联系的张量,如:邻接张量、拉普拉斯张量和无符号拉普拉斯张量等.张量作为矩阵的一般形式推广,为超图的谱理论研究提供了一个重要的工具.关于图的特征值和图结构关系的研究是图谱理论的核心问题,超图是图的推广,随着张量特征值研究的不断深入,超图谱理论得到了人们广泛的关注.超图谱理论主要研
近年来,随着互联网技术的高速发展,人们越来越重视信息传输过程中的安全性问题。无载体信息隐藏技术的出现有效的保证了信息在隐蔽传输过程中具有良好的安全性以及抗攻击性,但是目前无载体信息隐藏的研究主要集中于以图像和文本作为载体,基于流媒体的信息隐藏手段发展仍然缓慢,而载体的类型往往会对隐藏信息容量以及信息的传播方式产生限制。本论文在无载体信息隐藏方法中结合计算机自动作曲以及音乐信息检索等技术针对流媒体的
在近地面炮弹武器的设计、测试和改进中,确定炮弹能在预先设计的位置范围内爆炸是评价炮弹毁伤效能的一个重要指标。目前,采用图像处理设备检测爆炸目标普遍存在检测精度低、硬件成本高、系统功能单一和不支持远程操作等缺点。而且,在目标检测系统中应用较多的FPGA处理器,虽然具有高并行化运算能力,但对于算法中复杂逻辑的判断难以处理。为此,本文以Zynq为核心处理器,充分发挥其软硬件协同设计的优势,研制出一套集图
随着人工智能和机器学习的迅猛发展,卷积神经网络作为深度学习的代表算法可以轻松实现图像识别和分类任务,被认为是目前最有效的图像处理方法,在自然语言处理、计算机视觉等领域得到了广泛的应用。随着图像分类中识别精度要求的提高,研究人员提出的卷积神经网络模型结构越来越复杂,参数量和计算量迅速增长,卷积神经网络对处理器的计算性能和数据存储带宽要求也随之不断提高,传统的处理器已经难以满足其要求,促使处理器的架构
随着移动互联网的快速发展,社会对通信业务的需求呈爆发式增长,现代移动通信也在不断的演进发展。正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术因其抗多径衰落能力强、频谱效率高等优势被广泛应用于第四代、第五代无线通信系统的物理层标准,但OFDM技术因其对频偏敏感、带外泄露严重等系统固有缺陷无法很好的满足未来无线通信的应用需求。通用滤波多
近年来,国内零售行业发生深刻的变革,“新零售”成为发展趋势。2016年下半年开始,以阿里、腾讯为首互联网巨头纷纷携手传统商超进入“线上到家”时代。门店前置仓是线上业务到家服务的一个重要中转站,它承载了接单、拣货、客服、配送交接、备货、补货等多个流程,都需要在仓内完成,这些流程我们统称为前置仓履约。优化前置仓履约在提高到家业务的运作效率和服务水平方面有着重要的作用。前置仓履约包含的环节中,拣货是成本
随着社会信息化发展,越来越多大型公共场所比如商城、地铁、校园和住房小区等地方安装了大规模摄像头,形成了一个大型的实时视频监控网络。传统的视频分析采用人工查询处理视频信息需要耗费大量的人力物力资源,如何有效且快速处理监控视频成为一大难题。行人重识别作为视频监控网络中重要环节,受到越来越多的关注。现实复杂的环境中行人受到光照强度,行人姿态多变,运动遮挡等问题,导致采集的行人图像差异性较大,从而影响行人
随着移动互联网的快速发展,基于视觉的商品识别技术在无人结算,营销推广及智能售后等领域发挥的作用越发显著。当前的商品识别算法大多依赖于卷积神经网络,并在海量数据的驱动下,完成对模型的训练。然而,由于商品种类繁多,为每一种商品收集到足够的训练集,需要耗费大量的人力物力。为此,本文提出了一种单样本条件下的商品识别算法,在只有一张商品图片的条件下,进行商品识别。本文将商品识别问题拆分为两个子问题,一是从海
伴随社会经济的高速发展,我国高校逐渐从专业招生向大类招生、分流培养的模式转变。随着高校招生人数的增加,传统人工专业分流的形式被逐渐淘汰,专业分流系统应运而生。通过分析目前的专业分流机制和系统,总结出目前专业分流模式面临着两大难题。一方面,有的高校对学生的引导不足,导致学生在专业选择时盲目跟风,造成专业选择一边倒的局面。另一方面,学生被专业调剂后对专业认同感不高,成绩大幅度下降,导致学生产生自暴自弃
本文主要研究内容为激光对目标的偏振成像。激光在光通信、激光雷达、遥感、航空航天等领域发挥着重要作用,同时偏振光因其独特的信息记录方式得到了越来越多的关注,在环境介质测量、目标探测等方面具有很大的科学和实用价值。考虑偏振特性后,激光不仅仅能识别目标的表面形状、粗糙度,而且还能区分目标表面材料的差异,通常还能将目标与背景分离,因此在激光波段下,研究目标的偏振成像具有重大意义。本文首先简要地介绍了常见的