论文部分内容阅读
数据如同产品,具有质量这一概念,且其质量的高低影响着目标数据被充分挖掘的程度和可靠性。由于在日常生产和生活中,数据的产生和加工过程可能伴随脏数据的产生,使得对数据进行的分析工作具有可信度不高等特点。为了对数据的质量情况进行检测,需要配置一定的数据质量检测规则。然而现阶段对于规则的配置多采用数据工程师手动配置的方式,导致工程师的工作量较大,工作效率较低,因此,对于如何从数据中自动发现数据质量检测规则的研究日渐活跃。由于条件函数依赖在表达属性间关联关系的同时还表达了具体的语义约束关系,因此目前对于数据质量检测规则自动发现的研究主要指的是对条件函数依赖自动发现的研究。又由于在实际应用中,数据存在缺失值会导致发现出的条件函数依赖数量较少,且已有研究工作较少关注条件函数依赖自动发现算法的剪枝优化问题,因此,本文以数据质量检测规则的自动发现及其实现为研究课题,对缺失值填补方法和条件函数依赖自动发现方法进行了研究。主要研究内容和成果如下:(1)针对数据集存在缺失值会减少从中发现出的条件函数依赖数量这一问题,提出了一种在数据预处理阶段基于改进近邻传播聚类和改进K最近邻来填补缺失值并提升缺失值填补准确性的方法,该方法可以填补不同类型数据集上的缺失值,同时可以有效提升缺失值填补的准确性。(2)针对在属性数、元组数较大的数据集上使用传统CTANE算法发现条件函数依赖会导致运行时间较长这一问题,提出了一种对CTANE算法进行了剪枝优化的方法,该方法相比于传统CTANE算法,可以有效减少自动发现条件函数依赖的时间,且不会丢失数据集上的最小条件函数依赖。(3)由于在实际应用场景中,规则的手动配置会导致数据工程师的工作量较大、工作效率较低等问题,因此,本文基于所提方法设计并实现了一个可以在数据质量检测平台运行的规则管理模块。该模块实现了对数据质量检测规则的自动发现和统一管理,减少了工程师手动配置规则的工作量,提升了工作效率,缩短了规则配置与质量检测的时间间隔。本文提出的方法已通过一系列对比实验验证,能够有效提升缺失值填补的准确性以及条件函数依赖的发现效率,实现了对数据质量检测规则的自动发现。