大数据质量检测与修复方法及系统平台研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:fengwei27149
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据时代,各个行业产生并积累了海量数据。据统计,近五年全球数据储量突破了10ZB,并保持每年40%左右的增长。行业用户借助于数据分析、人工智能、数据挖掘等手段,能够从这些海量数据中发掘出潜在价值。但是,这些大规模数据的采集、流转、分析等处理过程中都有可能出现信息遗漏、语义改变,产生“脏”数据进而影响数据质量,严重制约了大数据在行业应用的落地发展。因此,数据质量问题正得到越来越多的关注,ETL(Extract-Transform-Load)、数据清洗、数据质量监控等相关技术与系统也不断出现。然而,现有相关系统在数据清洗能力和计算性能上还存在诸多不足,难以应对实际大数据应用的复杂情况。首先,大数据体量庞大,仅依靠单机资源难以实现大规模数据处理;其次,大数据来源分散、格式各异,难以对数据进行统一表示和存储;再者,多源异构大数据类型繁多,数据质量问题突出且解决方法不一,难以对数据质量问题进行统一定义和处理。针对上述难题,本文开展了面向大数据的数据清洗和修复技术与工具平台研究,研究提出了通用的数据质量管理模型与框架,并在此基础上实现了分布式数据质量检测与修复系统Spark DQ,提供了有效的数据质量问题处理方法,允许用户对底层异构大规模数据源中的各类“脏”数据进行高效的质量检测与修复。本文的主要工作与贡献点包括:(1)研究提出了一种通用化的大数据质量管理模型和编程框架,并构建了一系列数据质量检测与修复接口,用于表达各类数据质量问题的处理语义。通过该数据质量管理模型和检测与修复接口,用户可以针对不同的数据质量需求,快速构建自定义数据质量检测与修复任务。(2)基于上述数据质量管理模型和编程框架,研究实现了一套完整的并行化数据质量检测与修复方法及算法。包括完整性、唯一性、一致性、有效性维度的数据质量检测算法和基于填充、删除、过滤和替换方式的数据质量修复算法,能够高效解决实际中的各类数据质量问题,如数据缺失、规则不匹配、数据约束冲突等。(3)为了提高大规模数据场景下复杂数据质量管理算法的运行效率,针对计算耗时长的检测与修复算法,研究实现了相应的并行化算法,包括基于优先级的多条件函数依赖检测与修复算法、基于语义信息和分块技术的实体检测与抽取算法,以及基于朴素贝叶斯的缺失值填充算法。(4)为了进一步提升数据质量检测与修复任务的执行调度性能,面向不同数据质量检测与修复算法的底层运行机制,研究提出了多任务执行调度优化和数据状态缓存优化。综合考虑各任务的计算特性和任务间的相互关系,优化多检测与修复任务的整体运行效率。(5)在上述关键技术研究基础上,设计实现了统一大数据质量检测与修复原型系统Spark DQ,并提供了概要分析、约束推荐等辅助功能和用户交互特性。实验结果表明,本文所研究实现的并行化数据质量管理算法,相比单机版本性能可提升至4~12倍,自动化调度优化方法可将任务的执行性能提升9%~56%,且系统具有近线性的可扩展性。
其他文献
GSM-R(Global System for Mobile Communications-Railway)属于移动通信的一种,专用于铁路的运营管理,目前已经成为承载列车控制信息传输必不可少的组成部分。为确保列车安全
句子语义相似度计算的目标是通过一组计算机程序,自动计算两个文本句子在语义层面的相似程度。它是自然语言处理领域一项重要而又基础的技术,在自然语言处理的多个任务中都发
因太阳剧烈扰动导致射电强度剧增的太阳射电爆发会对地球的电磁环境以及空间天气产生巨大影响,因此对各种类型爆发事件的发生规律、辐射机制及其精细结构的研究,对探索太阳爆
2018年8月,教育部发布的教高函[2018]8号文件《关于狠抓新时代全国高等学校本科教育工作会议精神落实的通知》要求严格本科教育教学过程,加强学习过程管理,提出淘汰“水课”,
压缩感知能同步完成对信号的采样和压缩,可以极大地降低硬件压力和信号处理成本.面对日益增长的海量数据对存储空间和传输宽带的要求越来越严格的挑战,压缩感知提供了一个很
目标检测是机器视觉中基础和重要的研究方向,其主要目标是为了解决机器视觉对环境自主感知过程中“是什么”和“在哪里”的问题。具体的,对于给定的一幅图像,目标检测有两个
氟硼二吡咯(BODIPY)衍生物是一类良好的光敏染料,其具有优异的物理和化学性质,这些染料广泛用作光学化学传感器,荧光生物标记试剂,采光材料和光动力疗法试剂,等等。本文基于具
本文根据荧光探针的骨架构建和分析物与反应位点的特定识别,选择了在氧杂蒽结构基础上重新修饰合成的近红外荧光团,具有良好“开-关”环效应的罗丹明荧光团作为信号报告基团,
复杂网络能够对大量的真实系统进行高度抽象描述。实证研究发现,真实网络的生成和演化既有很大的随机性,也存在着一定的倾向性。复杂网络研究的基本问题涉及到隐藏的演化机理的发现和演化模型的构造。对网络的形成机制进行分析研究,有助于深入理解自然界和人类社会中大量个体之间的复杂相互作用。为了深入研究随机性与倾向性对复杂网络性质的影响,本文在对经典的BA(Barabasi-Albert)和ER(Erdos-Re
随着计算机的普及与互联网技术的提高,如何高效获取信息、利用信息逐渐成为一项新的挑战。推荐系统的出现有效地缓解了信息过载的现象,给用户提供了一种个性化的信息获取方式