一种ETL与数据清洗相结合的分布式数据集成工具的研究与实现

被引量 : 2次 | 上传用户:miao4701730
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库被提出为集成企业孤岛式信息和辅助企业决策提供了解决方案。ETL(数据抽取Extract、转换Transform、加载Load)是为构建数据仓库过程中实现数据转换及迁移的一个重要工具。ETL工具能够实现从许多异构系统中抽取采集数据,对其进行加工转换,把业务操作型数据转化为面向决策的数据仓库存储的数据[1]。尽管如此,如果进入数据仓库中的信息不准确,数据质量没有保证,数据仓库技术就不能产生理想的结果,甚至会产生错误的分析结果,从而误导决策[1、2]。因此对数据进行清洗成为数据集成工具另一重要环节。针对现有的数据集成产品普遍存在着价格昂贵、对高性能服务器依赖性高等问题,本研究所前期提出了利用分布式ETL[4][5]处理来解决集中式ETL所需要高性能服务器和高硬件服务代价等问题。本文所提出的一种ETL与数据清洗相结合的分布式数据集成工具。第一,针对前期分布式ETL模型中的主控服务器的瓶颈问题[4]提出基于环形的计算服务器的分布ETL,利用Agent远程通信技术把分布式在网络上的各个计算服务器在逻辑层上构建成环,利用环形网上各个不同的计算服务节点进行分布计算。环形计算服务器的逻辑拓扑结构,有效的解决了前期提到的分布式计算的主控服务器的瓶颈问题,采用这种模型同时也简化了分布式集成工具中的负载平衡的工作。第二,针对已有ETL数据集成工具复杂性和可用性问题,本系统通过执行引擎各个组件的多线程运行和在前后组件之间建立内存缓冲区提高ETL作业的执行速度。同时利用基于hsqldb(java内置SQL数据库,可配置内存数据库运行模式)转换规则解析引擎,大大提高了对复杂规则的解析能力。第三,针对传统的缺乏数据质量控制的ETL工具加入数据清洗模块。本文对数据清洗的原理、方法、流程及算法进行了分析和总结,并主要针对属性的清洗方面和相似重复消除方面的算法进行研究实现,同时以图形化的方式为用户提供数据清洗规则设计的可视化操作。通过环形分布式ETL与数据清洗相结合的数据集成工具,两者发挥各自的优势功能,在实现高效可靠的数据集成工具的同时保证了加载入数据仓库的数据的准确性。
其他文献
汽轮机作为火力发电、核能发电的主要能量转换设备,随着我国能源需求的不断增加,汽轮机的设计、制造也不断发展,尤其是近年来核电装机容量的迅速提高,电力行业对大型汽轮机组的需
目的:探讨传统单向开放式回血法和改良密闭式回血法和在血液透析动静脉内瘘高压患者中的应用及其效果比较。方法:对11例维持透析的动静脉内瘘高压患者采用自身对照法,患者依次
在线教学是现代教育信息化建设的核心内容,也是构建终身教育的重要组成部分。在线教学系统为自主学习和终身学习提供了便利,但是由于教师和学生交流不畅通,以及学生感受不到课堂
介绍了目前国内外墙保温材料的应用开发和安全及防火性能的研究,并对今后我国发展新型轻质防火保温材料提出了一些建议。 The application development, safety and firepro
近年来,越来越多的体育服饰企业意识到竞争已经由企业之间的个体转向供应链之间的群体。特别当其多年采用的期货制供应链模式日积月累下造成的市场库存问题大爆发,影响了企业的
人民币自由兑换包括经常项目的自由兑换与资本项目的自由兑换。1996年,我国完成了人民币经常项目的完全自由兑换,但对资本账户仍实行较强的管制。在经济不断发展的背景下,我
<正>美空军一直追求"全球机动、全球作战"的能力,在最近几次的战争行动中,美空军空中加油机为其夺取空中霸权发挥了重要作用,在科索沃战争中,北约出动的240架空中加油机,共实
伴随着科技的发展和人民生活水平的提高,汽车作为一种方便的交通工具,已经走进众多家庭,担负着重要的社会使命。但交通事故造成的伤亡人数也迅速增长,如何保证驾乘人员的人身安全
本文对1976-2012年间的509篇国内外文化旅游类期刊论文进行了梳理。首先,从年度载文数量、来源期刊类型、作者人数结构、案例地分布、研究类型、研究领域、研究理论与方法7个
选择1992、2000和2010年的DMSP_OLS灯光数据,改进了基于统计数据提取城镇用地的算法,使用Python语言编程实现3个时期中国城市建成区的提取。利用ArcGIS 10、Visual FoxPro 6.