数据质量分析系统的知识库研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zxcasd456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在数据质量监控方面作了大量的研究。 讨论了数据质量控制工具和方法的现状及其不足。提出以下解决方案:在已有的数据质量分析系统中加入知识库系统,建立了规则库以及方案库,使系统可以由数据质量分析结果经过规则推理得到清洗方案并依据方案对数据进行清洗,提高了数据质量。另一方面,方案库扩展了ETL的功能,使其具有通用性以及专用性。可以说本文实现了以知识库系统控制数据质量以及ETL工具。 对知识库相关理论进行了大量的研究,包括知识库定义,知识表示方法以及产生式系统。研究和实现了基于数据质量分析系统的知识库系统。定义了规则库中规则的格式,其灵活的表示方法为增加新的规则以及方案的扩展提供了便利。文采用了Java,XML,Web Service等技术以及C/S模式,为用户提供了一个跨平台、多用户式的质量分析系统。 研究工作的主要创新: 1、在数据质量分析系统中引入了知识库系统,构建了一个基于数据质量和数据清洗的规则库以及可以自增的方案库。 2、利用知识库系统中的推理引擎以及规则库,实现了由数据质量分析结果到数据清洗方案的自动生成,根据历史记录为系统用户提供数据清洗的最佳方案,实现了知识库系统对数据质量的控制。 3、清洗方案经用户确认后可以发布到方案库,成为ETL工具的扩充,使ETL的数据转换过程可以根据源数据的不同而不同,既具有通用性又具有专用性,实现了知识库系统对ETL工具的控制。 4、提出并实现了一个基于产生式规则库的知识求精算法,包括冗余消除以及循环检测,提高了知识库的效率与性能。
其他文献
本文给出了一种全新的软件模式一“格件模式”。格件模式试图建立一种基于状态的非过程化的软件开发方法,包括相应的开发工具与环境,以支持用户以资源融合的观点,以及自相似和增
随着计算机网络和Internet的不断发展,电子商务、电子政务等基于Internet的网络增值应用也得到迅速发展,这些应用对信息安全的需求也随之提升。企事业也对无纸办公的要求日益强
专利信息反映了最新的科技发展水平,具有内容新颖、覆盖面广、实用可靠、信息量大等显著优点,对于国家政府机构的决策、科技项目的规划、技术创新资源的配置、行业的发展方向、
近年来,随着电子商务中的物流技术的迅速发展,RFID(Radio FrequencyIdentification,射频识别)标签技术发展十分迅速。RFID中间件作为一种面向消息的中间件,是RFID各项产业应用的
。本研究工作取得了以下的主要创新性成果: (1)提出了基于资源融合的树型网格。提出了资源融合的方法,以资源融合的方式实现网格资源共享、解决网格应用构造复杂、模式不自
随着我国社会信息化程度的不断提高,越来越多的软件开发人员需要开发web应用程序。目前网络编程主要有两大技术体系:基于J2EE的网络开发和基于.NET的网络开发。J2EE以其开放性
随着移动通信和互联网逐渐成为信息产业的两大支柱,无线通信技术在银行、证券、商务、贸易、办公、教育等各方面的需求越来越多,无线通信的安全性也显得日益重要,因而WPKI技术也
基于图像绘制技术(Imaged-Based Rendering,简称IBR)的全景图的生成是当前发展最为迅速,并具有广阔前景的一个热点技术。它通过对图像的拼接,实现对场景的大角度可视甚至360°