科学与统计数据库压缩与查询处理方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chaofree900521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息量呈指数级增长的今天,我们需要数据库管理系统(DBMS)能够处理上G、上T、甚至上P的海量数据。这就对数据库管理系统提出了挑战,即如何有效地存储和管理海量数据并高效的支持上层的查询。海量科学与统计数据(例如:地震监测、天气预报、物理化学实验等数据)中存在着大量的数据冗余,即相同的数据会在不同的地方多次重复出现,这不仅浪费了存储空间,而且降低了查询效率。压缩技术由于节省存储空间和I/O带宽而被广泛应用于数据的存储和传输中。正是海量数据的出现,使得压缩技术与数据库技术结合了起来,产生了压缩数据库技术。压缩数据库技术的研究内容包括数据压缩算法及压缩数据上的查询算法。科学与统计数据库(Scientific and Statistical Database, SSDB)具有如下特点:(1)关系的模式稳定、属性值的值域有限、数据冗余大;(2)新产生的数据只追加到当前数据末尾而不更新已有内容;(3)每个关系都由大量属性组成,但大多数查询只与少数几个属性相关且多为只读操作。上述特征都适合于将压缩数据库技术集成到SSDB中去。因此,本文的研究内容包括:研究适合于科学与统计数据库的数据压缩算法及存储结构;研究在压缩科学与统计数据库上的查询处理技术,包括数据操作算法和查询优化算法。本文的主要研究结果如下:提出了适合科学与统计数据库的两种数据压缩存储策略,其分别为CCSS(Column-Compressed Storage System)和RCSS(Row-Compressed Storage System)。CCSS是一个按列压缩存储系统,它采用不同的存储结构和编码,以不同粒度对关系中的属性按列存储并压缩,从而将对原始数据的查询操作转换为对(压缩)数据的操作,实现不解压直接查询,简化了查询实现。RCSS是一个基于字典压缩的按行存储系统。本文详细介绍了RCSS的压缩存储结构(包括编码字典和压缩数据页的格式、系统字典的扩充)以及具体的压缩、插入和删除算法。RCSS与非压缩数据库存储系统提供相同的接口,可以在维持现有系统上层模块(索引、查询处理等)不变的情况下,实现压缩技术与数据库系统的有效结合。RCSS的压缩方法具有简单、通用的特点,理论分析表明RCSS压缩的有效性;针对CCSS这种存储策略,给出了相应的数据操作算法,包括选择、投
其他文献
近年来随着网络用户在商务领域的应用增加,网络的性能与信息的安全成为一个焦点。这样,代理技术应需而生,代理服务器的好处众多,所以使用者的数量也显著增加。由此在性能等方
软件复用能有效地解决软件危机,提高软件开发的效率和质量,降低开发和维护成本。基于组件的软件开发方法是软件复用的一种实践方法,其中的组件技术是支持复用的核心技术。为了能
说话人识别是指通过对说话人语音信号的分析和特征提取,从而确定说话人是否在所记录的说话人集合中,进而确定说话人是谁的过程。随着计算机技术和信息化社会的发展,说话人识
H.264/AVC是ITU-T VCEG(视频编码专家组)和ISO/IEC MPEG(运动图像专家组)最新的视频标准。与现有的视频标准相比,H.264/AVC编码器能在保持相同图像质量的情况下,节省大约50%
随着Web应用的迅速扩展,Internet上涌现了大量的功能相同的Web服务。如何从众多的服务中选取最符合用户需求的服务成为其中一个急需解决的问题。Web服务QoS(Quality ofService
本文在系统分析国内外森林防火的现状和发展趋势后,针对棋盘山森林防火存在的问题及林业管理局提出的林火监测自动化、扑火决策科学化、指挥调度快速反应的要求,根据需求分析,提
随着电子技术、计算机技术、通信技术的迅速发展,对通信系统的功能和性能提出了更高的要求,运用计算机网络来传输电力信息已经成为一种趋势。IEC61850具有分层、面向对象统一
随着传感器技术、微型机电系统(MEMS, Micro-Electro-Mechanic System)以及无线通信技术的飞速发展,无线传感器网络(WSN,Wireless Sensor Networks)技术日趋成熟,这项技术已
用户统一身份认证系统要研究开发一套企业级的用户身份认证平台,提供一个完整的用户身份认证体系。基于目录服务的统一身份认证系统,采用了LDAP 标准协议,利用了目录服务的分
随着MDA技术的流行和不断完善,越来越多的公司推出基于MDA的快速开发平台,通过用户设计的模型和平台已有的框架,可以直接生成可执行的程序代码。本文围绕此类开发平台的数据