论文部分内容阅读
在信息时代,正确的决策成为竞争强有力的武器。为制定战略意义上的商业计划,进行战术上的商业决策,各企业纷纷构建数据仓库。但是,由于数据仓库从各种数据源中导入大量的数据,而一些数据源包含“脏”数据的概率是非常高的;另一方面,对用于决策支持的数据仓库而言,其中数据的质量对避免错误的决策是至关重要的。重复数据是影响数据质量的一个重要因素,数据重复不仅会造成数据的冗余,使数据量增大,增加数据仓库的负担,还会严重影响分析和决策。因此,在数据仓库中,数据排重是提高数据质量的必不可少的方法之一。实时数据仓库是数据仓库技术的一个新的发展方向。它是指一个数据源的任何改变都自动,且立即反映到数据仓库中。实时数据仓库的发展又给保证数据质量的问题带来了新的挑战。实时数据仓库的数据源的变化是即时反应到数据仓库中的,也就是说ETL是实时的,这就需要实时的保证数据的质量,以支持前端的查询和分析。而以前的质量保证的研究大多是基于非实时的数据仓库,因此,需要一种新的调度方法来更加准确、高效的保证数据仓库中数据的可信度。本文首先提出了一种面向科学数据的通用排重模型,介绍了科学数据特点,然后详细描述了该排重模型,证明传统的“排序&合并”方法不适合于科学数据排重并给出本模型的算法细节,同时介绍了该模型的调度流程、体系结构和实现;然后,分析了实时数据仓库中数据质量保证的困难和问题,提出了在实时环境下的排重优先调度策略、实时调度策略、ETL优先调度策略,并且一一给出了具体分析,在ETL优先调度策略中,定义了排重繁忙度、累积延时等评价指标,给出了基于时间和基于事件的两种调度策略,从而将SD2M排重模型应用于实时数据仓库之中;最后,通过实验证明SD2M排重模型的稳定性和高效性、以及本文所提出的实时环境下的调度策略的合理性。