【摘 要】
:
随着互联网的飞速发展,各种网络业务呈现出爆发式的增长,产生的互联网流量数据也爆发式增长,互联网大数据分析平台的的运维环境变得复杂多变,产生的数据量大,并且千变万化,平台需要监控的指标越来越多,这对于传统的平台运维模式和技术方案带来了很大的挑战。目前,大数据分析平台的运维人员通过简单的检测器或者设置固定的阈值来对平台的各项指标进行监控,并且对于不同的业务场景,阈值的设定也不尽相同,这需要平台的运维人
论文部分内容阅读
随着互联网的飞速发展,各种网络业务呈现出爆发式的增长,产生的互联网流量数据也爆发式增长,互联网大数据分析平台的的运维环境变得复杂多变,产生的数据量大,并且千变万化,平台需要监控的指标越来越多,这对于传统的平台运维模式和技术方案带来了很大的挑战。目前,大数据分析平台的运维人员通过简单的检测器或者设置固定的阈值来对平台的各项指标进行监控,并且对于不同的业务场景,阈值的设定也不尽相同,这需要平台的运维人员丰富的经验。随着平台业务的增多,监控指标也在增加,需要设定的阈值也在增多。并且人工设定阈值带来大量的错报以及漏报问题,平台运维人员需要花费更多的时间去监控、排查以及修复问题,平台的运维变得很被动,运维成本也在不断的增加。基于规则和简单设置阈值的运维方式,只能够应对简单的场景,难以扩展。相反,统计方法和机器学习提供了更加灵活的表达方式,强大健壮,能够应对不断变化的需求。本文介绍了机器学习在大数据分析平台运维管理中的两方面应用,第一是聚类方法在平台原始数据分布规律的发现和以及采集服务器负载均衡中的应用;第二是回归算法在平台监控指标的智能化预测以及异常检测中的应用。不同于传统的图像或者文本数据,本文实验数据为时间序列,因此特征提取与传统的机器学习流程上有一定的差别。本文通过数据的汇聚处理将平台原始数据转为算法可用的时间序列数据,然后使用不同的距离计算方法和聚类方法对其聚类和分析。对于平台的监控数据,本文充分挖掘时间序列的特征信息,将单一时间序列特征扩充为表现力丰富的多维特征,之后分别采用LSTMs(Long Short Term Memory networks)以及机器学习回归模型对时间序列进行预测,同时与传统的时间序列分析方法ARIMA(Autoregressive Integrated Moving Average Model)进行了对比。有了准确的预测能力之后,本文自主设计一种异常检测算法,并通过验证得到了满意的结果,实现了对平台监控数据的异常检测。
其他文献
财务会计概念框架(CF)的研究已成为财务会计理论研究的核心内容。在国际会计界,将界定严密、内在一致的CF作为会计准则制订理论基础的观念已深入人心。现阶段,我国处于会计改革
<正>随着《职业性听力损伤诊断标准》(GB16152—1996)和《职业性噪声聋诊断标准》(GBZ49—2007)的先后实施,不仅为职业噪声暴露群体的听力保护以及职业性噪声聋患者的相关权
货币同经济的关系问题是一个颇具争议性的古老议题。从约翰·洛克(1632-1704年)的名言——货币是“在其流通过程中推动着许多贸易的齿轮”,到现代货币数量说的“货币中性观”
发动机起动但不运行故障在汽车维修行业中属于一个较大的故障检修难题。本文以上汽通用2017款别克全新一代君越为例,向广大汽车维修从业人员介绍发动机起动但不运行的故障诊
阐述思维导图的概念、特点和制作方法。以外研版(新标准)初中《英语》八年级(上)Module 10 The weather Unit 2 The weather is fine all year round为例,从读前、读中、读后
以某预应力混凝土连续小箱梁为研究对象,介绍了荷载试验过程中涉及的理论计算、试验工况、试验内容、测点布置等,并基于Midas/civil有限元模型与实桥荷载试验结果,分析了某预
<正>某公司一员工,曾从事除油工、电镀车间普工和电镀师等工作,2010年12月3日因咳嗽等身体不适于当地卫生院就诊,诊断咳嗽待查。2010年12月10日在当地具有职业健康检查资质体
民用航空和现代意义上的竞争法均肇始并发达于欧美国家,自1978年美国颁布航空放松管制法(Airline Deregulation Act of 1978)以来,全球领域内的发达国家均经历了对民航市场从
摒弃传统木模板的缺点,突破使用新型铝合金模板,借以改变东北地区的施工状况,是本文的主要研究内容。
随着我国铁路建设的不断发展,现有铁路通信系统已显示出技术落后、服务质量差、铁路间互操作能力低等弊端,急需发展新的铁路综合移动通信系统。GSM-R作为UIC支持开发的欧洲铁