论文部分内容阅读
在当前信息爆炸的时代,数据量与日俱增,但有用的数据才能称之为信息,因此,需使用数据挖掘技术对这些数据进行分析解读,挖掘其内在的联系。但前提是所使用的数据真实可靠,其派生过程准确无误,否则其后的一切工作均毫无意义。因此,需对由原始数据经转换至当前状态的过程进行合理有效记录,以便高效地利用数据溯源技术追踪原始数据,审核派生过程,定位错误位置,重现转换过程,寻找创新点,确定责任人等。针对当前数据量庞大,但其来源不明、可靠性得不到保证的情况,本文的研究目标设定为通过利用PROV模型对数据操作过程及其逆过程进行全面详细分析描述,设计合理的描述方法,在保证溯源结果正确的前提下,追求溯源过程的高效率。论文的主要工作分为以下几部分:首先,对转换及属性映射进行研究。通过对ETL中转换操作分析其可逆性特点,设计各转换相应的的逆操作,制定出各个转换相应的逆置函数。此外,为提高溯源效率,分析各类型转换的规则集,研究极小属性集及极小属性映射集,并总结其规律,有助于减少数据源及中间结果的数据量。其次,对溯源算法进行设计。根据溯源算法的功能要求,将其分为四个部分:ETL信息获取及可逆性判断、构造溯源树、构造极小属性集及溯源工作流。将通过列举包含多表多转换的ETL示例,对溯源算法进行验证,并展示其详细的构造过程及中间结果。第三部分,对描述方法进行设计。本文主要采用DC元数据及基于PROV的XML描述方法对相关信息进行描述,在此部分中,描述工作的对象主要分为数据表及(逆)转换、ETL及溯源过程三部分。针对数据表及(逆)转换,采用DC元数据进行描述,有助于展示其基本特征;ETL及溯源过程则采用PROV模型进行描述,有助于展示其整体过程的构成。本文从理论方面,完成对逆置函数构造、数据溯源算法设计及描述方法三方面的研究;从应用方面,完成对ETL溯源工具的整体概要设计。