【摘 要】
:
近年来,随着互联网的发展,越来越多的新型应用对传统数据库技术提出了挑战。一个显著的改变就是数据以一个无限的值序列的方式源源不断地产生。数据流(data stream)的处理与
论文部分内容阅读
近年来,随着互联网的发展,越来越多的新型应用对传统数据库技术提出了挑战。一个显著的改变就是数据以一个无限的值序列的方式源源不断地产生。数据流(data stream)的处理与实际应用密不可分,股票交易记录、网络流量、传感器网络中的数据、web日志等等。其中骨干网络流量统计是最为典型的例子之一,数据量非常庞大,而且持续速度也很惊人。2008年我国骨干网络上31个省的总流量大于12TB/S,而且这个速度在逐渐增大。于是对这些数据进行查询、分析的难度越来越大。因此在一个远小于数据规模的内存空间里不断更新一个代表数据集的概要数据结构(synopsis data structure)成为了研究的重点和难点。本文对数据流研究进行了相关工作的叙述,并在面向骨干网络流量统计这一应用背景下明确了研究方向,然后在现存的概要数据结构的基础上,提出了K-Bloom Filter结构,并从理论上对假阳性误判进行了分析,得出了两者具有相同的在误判率f 0下表示集合规模的上限n0 ,因此K-Bloom Filter的误判率是在可控范围之内的。我们提出了基于K-Bloom Filter的流统计算法,相比3.2.1节中的基于Bloom Filter的流统计算法,在相同的空间复杂度和时间复杂度的情况下,统计结果比起基于Bloom Filter的流统计算法的误差有了进一步的降低。最后,我们开发了一个基于Netflow流数据的网络流量监测分析系统,应用于骨干网络的在线实时分析。系统的核心部分采用了我们的数据流聚集计算算法。实际应用表明,我们的系统具有良好的实时性和准确性。
其他文献
乳腺癌是女性最常见的癌症之一。早期发现、早期诊断、早期治疗对医治乳腺癌、降低死亡率至关重要。开展基于乳腺X影像的适龄妇女的乳腺普查工作是早期检测乳腺癌的重要手段
无线传感器网络技术是一项综合了计算机、无线通信和传感器技术的多学科技术,受到人们的高度重视,并被广泛应用于各个领域。为了满足实际应用中的分析和决策需求,如何在提高
在解决复杂的实际优化问题时,经常会遇到具有多个极值的函数优化问题,这类问题被称为多峰函数的优化问题。由于其在实际优化问题中有着重要的应用价值,因而一直受到众多研究
研究群居性昆虫行为特征的科学家发现,昆虫每个个体能力十分有限,在群落一级上的合作基本上是自组织的,在许多场合中尽管这些合作可能很简单,但是却可以解决复杂的问题。群居
移动条件下的特定目标识别已成为计算机视觉领域研究的热点和难点,它在智能视频监控、机器人导航等方面发挥着重要的作用。本文主要对移动条件下特定目标的实时识别进行了研
随着微电子技术,计算机技术,航空技术的迅猛发展,新一代航空电子系统正向开放式,综合式,模块化的方向发展,已迈入综合模块化航空电子系统阶段。作为航电系统的重要部分,软件
网络视频内容审计实时地发现和获取网络中的所有视频流数据包,并在恢复出原始视频文件的基础上,根据既定的安全规则,完成对网络视频内容的审计分析,实现对网络视频信息的监管
随着互联网技术的普及和网络技术的不断发展,网络游戏作为一种娱乐工具正逐步走向人们的生活,网络游戏产业已经日益成为带动社会经济发展的一支重要力量。网络游戏之所以能够吸
生物科学与计算机科学是目前发展最迅速的两大学科,而作为这两大学科的交叉产物—生物信息学在基因组研究中发挥了重要的作用,基因芯片是其中的一个崭新的研究领域。随着基因
存储在云服务器中敏感数据的安全存储和访问控制是云计算安全研究的重要内容。基于属性的加密技术(ABE)用属性集和访问控制策略将用户和数据关联在一起,只有属性满足访问策略