数据流上若干查询处理算法的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:liuqingsong835200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
过去十年中,数据流模型在一些信息处理应用中广泛出现,这些应用包括因特网、传感器网络、网络交通监控、计算机网络安全、数据挖掘、金融监控、制造业、天文等等。和传统数据模型相比,数据流模型具有几个截然不同的特征:(1)数据总量被假定为是无限的;(2)数据到达速率非常快;(3)数据到达次序不受应用所约束;(4)除非可以保存,每个元素均只能够“看”一次。针对数据流模型的查询处理技术具有几点特殊要求。首先,该技术必须能够快速处理每一个元组,实时输出查询处理结果。其次,该技术的空间复杂度要低,因为数据流的规模被假定为是无限的而内存是有限的。再次,这类技术由于空间复杂度低、处理元组速率高,往往只能够得到近似解,但一般而言,该近似解都具备一定的精确度。最后,该技术适应性要强。数据流在某些应用中可能非常不稳定,不仅数据分布,而且流速都可能发生剧烈变化,“好”的数据流查询处理技术必须能够在各种状况下都具备良好的性能。 传统的数据处理技术很难被应用到数据流模型中去。数据库管理系统(DBMS)需要先将所有数据保存起来,再提交查询进行处理,难以满足实时应用的需求。另外一种处理技术是首先将所有数据全部载入到内存中,以随机访问的方式解决应用问题。但是由于数据流数据量远大于主机内存,该技术也不现实。这个现状迫使研究人员深入研究数据流模型,设计新的查询处理技术。 本文针对数据流查询处理中的几个基本问题进行研究,并做出了以下几点贡献: 1.如何挖掘数据流上的频繁元素是数据流研究的一个基本问题。我们提出了hCount算法来解决这个问题。该算法仅需要e/ε·ln(-M/ln ρ)个计数器,就能够估算每个元素的值,且最大误差不超过ε。我们还将hCount算法和一个空间时间索引结构(sRB-树)相结合,提出了stFreq算法,用于在空间时间流上挖掘频繁元素。该方法空间复杂度低,查询精度高。 2.估算分位数(quantile)问题也是数据流上的一个基本问题。我们提出了一种新算法,该算法仅仅需要2elog~2 M/ε·ln(-M/ln ρ)个计数器,就能够在包
其他文献
随着时代的发展,人们的生活水平得到了一定的提高,工作节奏也相应地加快,人们与自然的关系日渐疏远.餐饮空间的有效设计能够给紧张的都市生活带来一点轻松和乐趣,成为人们情
集群系统的关键问题在于如何有效利用系统范围内的资源。负载平衡算法是实现资源高效利用的重要手段,进程迁移机制是负载平衡算法的一种有效实施机制。 本文针对资源异构集
健忘一症,常见于中老年人,临床上多不为重视,疗效亦不甚理想,但常令患者及家属苦不堪言,笔者临床10余年,广泛查阅古今临证资料,反复推敲,对健忘症通过辨证施治探其原由,考其
算法的复杂性分析方法通常有两种:(1)最坏情况分析;(2)平均情况分析。最坏情况分析给出的是算法关于某一最坏输入实例的复杂性估计。如果算法的最坏输入实例在实际应用中很少
网格作为一种新型的网络计算平台,目的是为用户提供一种全面共享各种资源的基础设施,网格技术就是实现这种基础设施的方法和手段,为网格的构建提供技术支撑。利用网格技术的优势
据《外科学文献》上发表的一项研究表明,遭受严重外伤的肥胖病人死亡的可能性比较瘦的创伤病人更大,因为前者总的健康状况倾向于更差,而且手术更危险。