论文部分内容阅读
本文在数据质量监控方面作了大量的研究。
讨论了数据质量控制工具和方法的现状及其不足。提出以下解决方案:在已有的数据质量分析系统中加入知识库系统,建立了规则库以及方案库,使系统可以由数据质量分析结果经过规则推理得到清洗方案并依据方案对数据进行清洗,提高了数据质量。另一方面,方案库扩展了ETL的功能,使其具有通用性以及专用性。可以说本文实现了以知识库系统控制数据质量以及ETL工具。
对知识库相关理论进行了大量的研究,包括知识库定义,知识表示方法以及产生式系统。研究和实现了基于数据质量分析系统的知识库系统。定义了规则库中规则的格式,其灵活的表示方法为增加新的规则以及方案的扩展提供了便利。文采用了Java,XML,Web Service等技术以及C/S模式,为用户提供了一个跨平台、多用户式的质量分析系统。
研究工作的主要创新:
1、在数据质量分析系统中引入了知识库系统,构建了一个基于数据质量和数据清洗的规则库以及可以自增的方案库。
2、利用知识库系统中的推理引擎以及规则库,实现了由数据质量分析结果到数据清洗方案的自动生成,根据历史记录为系统用户提供数据清洗的最佳方案,实现了知识库系统对数据质量的控制。
3、清洗方案经用户确认后可以发布到方案库,成为ETL工具的扩充,使ETL的数据转换过程可以根据源数据的不同而不同,既具有通用性又具有专用性,实现了知识库系统对ETL工具的控制。
4、提出并实现了一个基于产生式规则库的知识求精算法,包括冗余消除以及循环检测,提高了知识库的效率与性能。