论文部分内容阅读
信息是企业最重要的资源之一,是企业运用科学管理、决策分析的基础。传统的面向事务处理的业务系统,在积累数据信息的同时,对如何利用这些信息显得力不从心。数据仓库系统是在业务系统的基础上发展而来,旨在帮助用户充分利用宝贵的信息资源,做出正确的决策。在数据仓库系统各个组成部分中,ETL的执行效率是影响数据仓库系统成败与否的关键所在,ETL的开发也是整个数据仓库系统开发过程中工作量最大、耗时最长的部分。然而,目前存在的ETL工具中,存在着一些问题,最典型的是开发出的ETL工具固然强大,但在概念层上没能实现ETL与数据仓库其他部件融合。针对这个问题,本文提出了把MDA(Model Driven Architecture)方法运用于ETL部件的设计和开发的思想。本文将MDA的开发方法应用到ETL过程,首先提出了基于MDA的数据仓库开发框架。接着借助于UML profile和CWM(Common Warehouse Metamodel),分别对ETL过程进行PIM(Platform Independent Model)和PSM(Platform Specific Model)建模,并且使用形式化方法——QVT(Query/View/ Transformation)规范中的Relation语言定义ETL的PIM和PSM之间的转换规则。通过支持QVT2.0的开源工具MediniQVT实现PIM模型到PSM模型的自动转换。并在IBM所提出的EMF(Eclipse Modeling Framework)下实现了PSM模型到SQL的转换,从而实现了以模型为基础的模型驱动开发过程。使得ETL的建模较早的地伴随数据仓库系统进入设计阶段,减少开发的时间和代价。最后对某钢铁企业订单销售数据完成了数据的抽取、转换和加载。实践表明,利用此方法开发的系统不但在开发效率上较传统的过程开发方法提高了,从而使模型更加具有规范性,可以很好地实现不同模型之间的共享,同时,也有利于模型的重用和维护。