论文部分内容阅读
目前无线传感器网络、网络流量监控、金融应用、通信数据管理等应用中处理的数据不再是存储在存储介质中的静态数据,而是实时、连续到达的数据流。与传统的静态数据相比,数据流具有无界、连续到达、数据动态变化等特点,所以传统的对静态数据的查询处理技术并不适用于对数据流数据的查询处理。由于对数据流的查询是长期、连续进行的,并且在查询过程中数据流的数据特性是多变的,所以数据流上的自适应查询处理是对数据流管理系统的重大挑战。目前,数据流自适应查询处理的研究中,最重要的成果是一个称为Eddy的自适应查询处理机制。它是一种基于路由的自适应查询处理技术,其核心是进行自适应路由调度的路由调度策略。但Eddy的主要不足在于:当前基于谓词独立性假设的路由策略在谓词相关的情况下,计算得到的路由可能是一个糟糕的查询计划,导致查询效率低下;当前的批处理路由调度策略的适应粒度为一个固定值K,如果K值取值不当,就会引入不必要的开销而降低查询效率。针对Eddy的这些缺陷,本文进行了研究和改进,主要工作包括以下几个方面:(1)研究了数据流的自适应查询处理方法,指出Eddy自适应查询处理机制中的不足;(2)针对Eddy当前基于谓词独立性假设的路由策略不能很好地处理查询谓词相关情况的数据流查询处理,提出了一种面向谓词相关的路由调度策略——自适应贪婪路由策略。该策略把谓词之间的相关性纳入考虑范围,在谓词相关的情况下,计算得到的路由更加接近实际的最佳路由。相关实验表明在谓词相关的情况下,本文设计的路由策略是有效的;(3)Eddy中的批处理路由策略的适应粒度为一个固定值K,如果K取值不当,会导致Eddy重复计算同一路由,从而产生不必要的开销并降低查询效率。本文对批处理路由策略进行了改进,使其能够获取数据流数据特性的变化,并自适应地调整适应粒度,确保无论数据流数据特性如何变化,都能获得较好的查询效率。相关实验结果和分析表明,这一改进策略是有效的。