论文部分内容阅读
数据仓库技术将不同数据源(包括内部的和外部的)的数据集成到数据仓库中为决策支持系统提供了一个集成的数据环境。OLTP (on-line transactional processing)的应用环境是一个存储细节的、原子的和当前的数据的数据库操作环境;而数据仓库(DW, data warehouse)为联机分析处理技术(OLAP ,online analytical processing)提供了综合的、统一的和历史的数据。综合应用数据仓库技术和OLAP满足了用户综合、灵活的分析需求。其中数据仓库的建立是整个系统开发的基础,因此本文以暂住人口数据仓库为例,探讨数据仓库的几个关键技术的实现。论文所做的工作有如下三个方面:第一,针对OLAP的快速性、可分析性、共享性、多维性、信息性,人们提出了许多OLAP的数据模型方案,目前比较实用的数据模型是关系型OLAP(ROLAP)的星型模型和雪花模型。论文结合暂住人口数据仓库设计中关于主题“暂住证”的ROLAP星型模型的设计,阐述了模型选取和建立的原则、实现过程和一些特殊处理,如不可加事实表的设计。第二,数据仓库在导入初始阶段的数据后,在日常运行中,数据仓库内的数据需要定期进行更新。为了避免对数据源历史数据的整表扫描,我们采用了捕捉变化数据的方法来更新数据仓库的数据。实现变化数据捕获的技术一是“数据复制”,二是“变化数据捕获(CDC)”,在暂住人口数据仓库的更新过程的设计中,在实际环境中实现这两种方法;第三,在提高ROLAP的查询性能优化方面,论文主要阐述了针对ROLAP星型模型的索引优化策略,提出了两种索引方法——位图索引和数据索引。在暂住人口数据仓库中的实现和分析结果证明了它们在提高ROLAP的查询性能方面是有效的。最后,在总结了论文的工作后,指出了若干遗留问题和进一步研究方向。