论文部分内容阅读
数据仓库以传统的数据库为主要信息源,为联机分析处理(OLAP),决策支持(DSS)和信息挖掘(DM)提供了一个集成的数据环境,高效地组织和管理数据是实现数据仓库技术的关键之一。本文从数据仓库的多维数据压缩和聚集计算两个方面对这个问题进行了深入的研究。多维数据的存储和聚集计算是数据仓库研究的核心问题。本文首先介绍了数据仓库的概念、数据仓库的相关理论、数据仓库的设计过程、现有的多维数据模型理论及联机分析处理(OLAP)相关概念,这引出了对多维数据的存储及聚集优化策略的需求,也为继续研究多维数据的存储及聚集优化策略准备了理论基础。多维数据的逻辑组织方式是OLAP实现的关键之一。本文对这个问题进行了深入的研究,总结了多维数据的两种组织方式一关系方式和数组方式,重点研究了在数组方式中多维数据的存储结构、多维数组的建立方法、稀疏数组的压缩方法、数组分块的原则和分块数组访问方法,并在以上的理论分析的基础上提出了一个数组方式存储的方法。在数据仓库中计算多维聚集是提高OLAP性能的手段之一。本文总结了聚集计算的主要优化方法,对相关的概念进行了形式化定义,着重研究了数组聚集计算的优化策略,并提出了一种新的数组方式下的聚集算法,该算法运用了最小父亲、阶段扫描以及缓存结果的优化策略,加入了对于维内部的层次的聚集计算的支持,对于大数据量的计算,采用第三章的分块压缩的数组方式存储,算法将对数组的每一个逻辑块进行分别计算,计算完所有的划分后再把中间结果合并成完整的聚集结果。分析表明该算法达到了充分利用内存空间、减少I/O次数的目的。论文最后对研究工作进行了总结,并对进一步的研究工作进行了展望。