基于滑动窗口的分布式数据流ToP-K监控

来源 :山东大学 | 被引量 : 0次 | 上传用户:z504555643
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着社交网络、移动互联网和物联网等技术领域的迅猛发展,数据量呈现爆炸式的增长。在这些领域中,通常需要实时地、高效地处理快速变化的海量数据。目前,针对数据流的实时分析和流式处理逐渐成为大数据研究的热门领域。分布式数据流监控问题在许多应用领域被广泛研究,比如:网络流量监控、传感器网络监控、Web日志使用分析和股票市场监管等领域。这些应用场景通常需要监控分布式数据流中存在的异常情况,并进行及时汇报处理。由于数据产生速度快、数据量大,传统的集中式的处理方式变得不再可行,出现了由于中心处理节点计算资源有限、存储能力不足导致的计算延迟,以及耗费大量的网络通信用来传输数据等问题。  本文主要研究基于滑动窗口的分布式数据流Top-K监控问题,即在给定的监控窗口大小内,在分布式数据流上连续地查询前K个数值最大的对象。我们采用连续的分布式监控处理模型来进行分布式数据流的监控,包含一个中心协调处理节点和多个分布式监控节点。每个监控节点负责实时接收处理对应的数据流。中心协调处理节点则负责计算全局的Top-K结果。为了高效地维护和处理数据流,本文采用基于时间的滑动窗口处理模型。该模型将给定的监控时间窗口划分为多个大小相同的窗口单元进行数据流的处理。每当一个新的窗口单元创建完成后,最早的窗口单元将由于过期被移除监控窗口。伴随着监控窗口的滑动,分布式监控节点上对象的数值也随着不断变化。连续地查询前K个数值最大的对象,需要频繁地从分布式监控节点获取对象变化的数值,并计算新的Top-K结果。这将导致整个分布式监控系统的通信负载和计算消耗加重。  为了能够尽可能降低分布式监控系统中出现的通信开销,本文提出了一种基于调整因子的对象数值重分配算法。该算法通过指派调整因子来协调分布式监控节点上对象的数值,使得分布式监控节点上的本地Top-K结果与全局的Top-K结果保持一致。当本地的Top-K结果出现不一致时,才重新进行协调,并计算出新的全局Top-K结果和新的调整因子。该算法只在分布式监控节点出现违反约束时,才需要额外的通信来协调全局的信息,所以能大大减少分布式监控系统中的通信负载。  我们在Apache Storm分布式流数据处理平台上实现上述的Top-K监控算法,并通过大量实验证明了该算法在处理分布式数据流上的Top-K监控具有高效性和可扩展性。
其他文献
由于通过红外线等设备的扫描可以得到物体的坐标信息,所以随着计算机和扫描技术的进步,三维点云被越来越多的被应用在医学,动画,三维重建等研究领域。所以三维点云是目前比较
随着Android智能手机、平板等设备在近几年的普及,海量的Android应用被厂商开发出来供用户使用。但是开发者对这些Android应用的安全性却往往没有足够的重视。由于开发者能力
近年来,随着计算机视觉、可视化计算、人工智能和虚拟现实技术的深入研究和飞速发展,图像插值技术的研究如今已经在高清电视技术、智能家居技术、数字投影技术和图像处理软件
交互式互联网电视(IPTV),是一种将广播电视网,中国互联网和有线电信网三网融合在一起,并集合多媒体及浏览器等多种技术并为家庭用户提供多种互联网音视频的交互式服务的崭新技术
随着多媒体技术的迅速发展和视频信息量的高速膨胀,人们对视频检索的执行效率提出了更高的要求。以体育比赛视频中的精彩事件作为对象,进行分析和查询是视频检索领域的重要分支
变更影响分析可以识别软件变更对系统的潜在影响,在软件维护中扮演了一个重要的角色。本文提出了一种基于多粒度依赖关系图的变更影响分析方法。所做的工作如下:提出一种面向
Internet的迅猛发展在给人们带来便捷与高效的同时,也导致了网络的安全性受到严重威胁。而公钥密码学技术正是在这种背景下产生的,它是保证信息在传输过程中得到保密的一种有
随着Web服务相关标准的不断完善以及面向服务的体系架构的发展,基于Web服务构建信息系统的方式已经为工业界所广泛接受并实施。另一方面,学术界也一直对服务的发现、推荐和组
伴随移动互联网的高速发展,社会生活对嵌入式系统功能的要求越来越高,嵌入式系统的软件规模日益扩大,软件复杂度不断增强,传统的嵌入式系统软件开发模式已经跟不上嵌入式设备更新
嵌入式产品越来越广泛的被人们使用,图形用户界面作为人们对产品的第一印象在嵌入式开发中的地位也越来越重要。传统的二维图形界面能够在功能上满足人们的需求,但是相对于生动