论文部分内容阅读
随着大数据技术的飞速发展,网络规模也较过去几何级数增长,IT运维系统高效快速的处理也逐渐成为热点。同时,由于机器学习技术的普及。将各种机器学习方法与运维技术结合,形成人工智能运维AIOps(Artifical Intelligence Operations)技术。在这一背景下,本文以实际某商业银行的KPI数据,研究了KPI(关键性能指标Key Performance Indicator)概念漂移检测和基于相似度的关联性分析问题。本文的主要工作如下:1.介绍AIOps的发展历程,重点介绍针对运维数据的概念漂移测和关联性分析的研究现状。并由此阐述该相关研究的重要意义。2.提出综合法来进行概念漂移检测,概念漂移是指运维数据的分布发生了显著变化。一般的异常值检测算法由于依靠采集一段时间窗口内的历史数据进行计算,在数据分布发生改变后无法及时进行调整,会出现一段时间的误报,直到窗口数据完全滑动到变化后的数据之后误报才能停止。精准的确定概念漂移后,可以及时对算法进行调整,有效的减少误报。目前较为完善的方法为StepWise方法。本文在StepWise方法的基础上结合核密度估计来对概念漂移进行检测。并结合某商业银行71777条数据对两种方法进行比较,本文提出的综合法对29.25%有效提升了精确度,提升幅度最大可以达到17%,对65.94%的数据检测的效果与StepWise相同。3.对于出现异常的数据指标,运维人员需要找到与其具有较强关联性的其他指标来排查异常发生的原因。并且对于一些重要的交易指标,也需要分析这些指标变化,是否对其他指标造成了影响。本文基于线性相关性计算方法,对某一项数据指标与其他指标的关联性进行计算。不同于大部分关联性分析算法认为不同KPI之间的相关关系是一成不变的。本文验证了数据间的关联性会随着时间改变发生变化。因此设定按小时/日/周来计算互相关值。并且对相似波形的相位差做了限制,使得算法的计算速度提升约75%。算法运行结果给出了与待测指标关联性最高的N条KPI指标及其相关度。该算法已经在某商业银行中推行使用,验证了算法的实用性。本文以某商业银行实际数据为例,改进了现有的概念漂移检测模型,提升了对概念漂移检测的准确性。并且结合实际情况,提出了关联性分析算法。在实际运维工作中,可以有效帮助运维人员排查异常数据来源,或分析某些指标变化可能造成的影响。