论文部分内容阅读
OLAP技术是决策支持系统中的一种重要技术,用于管理人员决策分析。为了提高响应速度,需要对数据立方进行预计算。数据立方的计算在数据仓库中是非常必要但代价很大的操作。有效的数据立方(CUBE)计算成为研究的热点之一。 CUBE计算是OLAP即席查询分析的基础。CUBE操作内在的困难是计算代价和存储大小问题。一些文献提出了对CUBE计算的操作,包括并行性的应用、字符型映像到整型等,都是为了减少存储。但是随着新的应用,问题加剧了。比如,维数的增加和由此导致的CUBE大小爆炸性增长问题。其它文献已经提出了一些办法解决存储大小问题,而压缩的CUBE能同时减少计算时间和占用的空间。 Dwarf数据立方是一种高度的压缩结构,同时保持CUBE的语义,使OLAP查询易于实现。Dwarf数据方体将具有相同前缀和后缀的数据元素(Cell)压缩存储在一起。一般来说,数据方体在数据密集的地方前缀冗余比较多,数据稀疏的地方后缀冗余比较多。Dwarf数据方体存储时,消除了这两种类型的冗余,大大缩减了数据方体的存储空间。将一个完全实例化的数据方体缩减到一个非常紧凑的数据结构中。 本文研究了基于Dwarf的语义CUBE压缩技术。针对现有的Dwarf结构在实现过程中遇到的频繁I/O访问问题提出了改进算法—Q-Dwarf。另外,在实现基本Dwarf数据立方的基础上,进一步研究了以下几个问题。(1)为了更好的支持范围查询,研究并实现了聚簇算法。(2)实现了Dwarf数据立方的增量维护,研究并实现了基于三角形的增量更新算法。(3)为了更好的支持OLAP操作,研究并实现了基于文件的索引技术,实现其点查询和范围查询。大量实验表明,Q-Dwarf算法较原算法性能有明显提高,而且无论是在元组数较多的情况下还是在维数较多的情况下,我们算法的实现性能都较好。