论文部分内容阅读
通常,数据仓库中存储了大量实体化视图,这些视图中的数据主要用于决策分析。由于数据仓库中的数据大都是从操作数据库中提取出来的,因而,数据仓库中的数据应定期刷新,以与数据源中数据保持一致。在视图维护中,算法好坏直接影响到维护的效率。 常规的视图维护算法在维护实体化视图与下层数据源之间的一致性方面暴露出一些效率问题,而且有些算法还会导致异常问题。首先,本文以斯坦福大学提出的WHIPS系统为基石,详尽的介绍了它的运行原理,分析了它的体系结构和各模块的功能。其次,本文对常用算法作了系统地介绍,阐述了每个算法的原理,指出了其优缺点,并进行了改进。最后,本文提出了一个新的算法——并行视图维护(PVM:Parallel View Maintenance)算法。 PVM算法综合了几种不同的算法,包括在线纠错算法的并发版(POLEC)、相关性更新检测算法和视图自维护方法。该算法从不同的角度或方面来处理视图维护问题,以最小的时问开销来维护视图一致性,极大地提高了维护性能。当收到更新时,PVM算法首先用相关性对其检查,对不相关更新直接抛弃;对相关更新进行并发增量视图维护或自维护机制检查;对满足自维护的更新通过查询辅助视图来避免网络传输和使实化视图与底层的数据源保持一致;对必须进行并发增量视图维护的更新由POLEC来处理,增加了对更新的吞吐能力,减少了维护的延迟。 本文主要有以下三个方面的创新: 首先,它修正OLEC算法只能顺序处理的瓶颈,赋予其并行处理能力,对并行处理所引入的问题作了深入地分析,给出了全面的解决方案; 其次,在POLEC的基础上,PVM算法结合几种不同类型算法的优点,首次在增量维护中引入自维护的思想和相关性更新处理,将这三种不同类别的算法有机融合为一体; 再次,它继承了以往所有算法的优点,但又完全克服了这些算法所表现出的缺陷,从而不论是响应时问还是消息总量,都获得了改善,从本文对算法不同方面所作的科学估算来看,PVM在维护性能上具有十分明显的提升。