数据质量检测规则自动发现的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:panda_chris
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据如同产品,具有质量这一概念,且其质量的高低影响着目标数据被充分挖掘的程度和可靠性。由于在日常生产和生活中,数据的产生和加工过程可能伴随脏数据的产生,使得对数据进行的分析工作具有可信度不高等特点。为了对数据的质量情况进行检测,需要配置一定的数据质量检测规则。然而现阶段对于规则的配置多采用数据工程师手动配置的方式,导致工程师的工作量较大,工作效率较低,因此,对于如何从数据中自动发现数据质量检测规则的研究日渐活跃。由于条件函数依赖在表达属性间关联关系的同时还表达了具体的语义约束关系,因此目前对于数据质量检测规则自动发现的研究主要指的是对条件函数依赖自动发现的研究。又由于在实际应用中,数据存在缺失值会导致发现出的条件函数依赖数量较少,且已有研究工作较少关注条件函数依赖自动发现算法的剪枝优化问题,因此,本文以数据质量检测规则的自动发现及其实现为研究课题,对缺失值填补方法和条件函数依赖自动发现方法进行了研究。主要研究内容和成果如下:(1)针对数据集存在缺失值会减少从中发现出的条件函数依赖数量这一问题,提出了一种在数据预处理阶段基于改进近邻传播聚类和改进K最近邻来填补缺失值并提升缺失值填补准确性的方法,该方法可以填补不同类型数据集上的缺失值,同时可以有效提升缺失值填补的准确性。(2)针对在属性数、元组数较大的数据集上使用传统CTANE算法发现条件函数依赖会导致运行时间较长这一问题,提出了一种对CTANE算法进行了剪枝优化的方法,该方法相比于传统CTANE算法,可以有效减少自动发现条件函数依赖的时间,且不会丢失数据集上的最小条件函数依赖。(3)由于在实际应用场景中,规则的手动配置会导致数据工程师的工作量较大、工作效率较低等问题,因此,本文基于所提方法设计并实现了一个可以在数据质量检测平台运行的规则管理模块。该模块实现了对数据质量检测规则的自动发现和统一管理,减少了工程师手动配置规则的工作量,提升了工作效率,缩短了规则配置与质量检测的时间间隔。本文提出的方法已通过一系列对比实验验证,能够有效提升缺失值填补的准确性以及条件函数依赖的发现效率,实现了对数据质量检测规则的自动发现。
其他文献
<正>在数字化的时代,广告媒体投放在不断变迁,用户打开手机就会收到满屏最近关心的产品的广告,他们越来越发现最了解自己的人不是自己的妈妈,而是广告平台。本次移动推介会上
国企掌握着国家的经济命脉,也是政府参与和干预经济的手段之一。从新中国成立以来,国有企业走过了70年的发展历程。国有企业改革经历了从放权让利、承包责任制到国有企业改制做大规模上市、再到混合所有制改革,逐步实现了从管理国有企业向管理国有资本的改革。但是目前国有经济“改革”不到位,其中一方面就是没有完善的现代企业制度,市场经济日益成熟,国有企业的微观治理机制已经不适应。国企领导体制改革还存在很多问题。这
<正>根据相似形的定义,我们不难定义相似椭圆:如果两个椭圆的长轴和短轴对应成比例,则称它们是相似椭圆.显然对于中心在原点的两个相似椭圆,其方程可以设为C1:αx2+βy2=1(α>
复合抛物面聚光器(Compound Parabolic Concentrator,CPC)是一种接近于理想聚光器的非成像聚光器。它根据边缘光线原理设计,对接收角范围内的入射光线具有光陷阱作用,可将接
20世纪90年代以来,各国积极参加区域经济合作,签订贸易协定。伴随着区域经济合作如火如茶的展开,经济学家们越来越关注一体化对区域集团内国家和地区之间经济差异的影响。一体化