论文部分内容阅读
当前许多应用需要支持对快速改变的流数据的在线分析查询处理。传统的数据库管理系统和数据查询算法不能很好地支持对流数据的查询已经被广泛认识,因而需要设计新的流数据查询管理系统和研究新的流数据模式查询算法。 认识到基于Web服务的方法可能成为电子商务和信息技术的基础设施,本文首先提出了构造基于Web服务的分布式流数据查询系统。该系统以建立在标准的Web服务技术之上的WSRF规范为基础。其次,本文的另一项工作是流数据中的模式查询算法的研究。对查询算法的研究,主要集中于流数据的相似性查询和流数据聚类算法研究。 本文的主要研究工作包括以下五个方面内容: 第一,提出了基于Web服务资源框架的流数据查询处理结构。许多当前出现的应用需要支持在线快速改变的流数据的分析处理,同时基于服务的方法在当前电子商务和电子科学领域开发分布式应用时受到广泛关注。因此,本文提出了解决分布式流数据查询的普遍框架,该框架构架于Web服务技术之上,遵守Web服务资源框架。这种分布式基于服务的结构增加了查询系统的可移植性,方便了整个系统的维护,使安装和管理更便捷。同时,这种系统结构把客户端(终端)从系统中分离出来,允许用户从不同的查询节点移动,共享和访问流数据查询处理系统提供的服务。 第二,提出了基于傅立叶变换(DFT)聚类方法的流数据相似性搜索算法。本文提出了先用DFT从时域到频域转换流序列,并用能量最大保持原理提取代表平均意义下能量最大的特征值,并使用聚类方法减少最终要保留下来的代表性子序列个数。最后提出了能够发现两个序列之间存在经过时间轴偏移、幅度放大或缩小以及上升或下降趋势等相似性关系的相似性查询算法。该算法能够处理基于滑动窗口和无限界标窗口模式下的流序列相似性查询问题。实验结果验证了提出算法的有效性。 第三,提出了一种基于摘要技术的在线快速混合模型流数据聚类算法。该算法为分阶段混合模型聚类过程。算法首先对最初到达的流数据用多维网格结构进行划分,对划分形成的每一个单元进行数据摘要,对该摘要运行基于模型的贪心聚类算法,聚类形成的混合模型的摘要信息存储在永久摘要数据库中,从而形成初始聚类