论文部分内容阅读
随着全球信息化进程加速推进,为了能在激烈竞争中占据有利位置,各行各业都在实施信息化工程,数据仓库的应用是信息化程度的重要体现之一,它是决策支持的基础。数据仓库中数据正确性对于数据仓库的应用至关重要,并会进一步影响后期的决策行为。由于数据仓库中的数据来自多种业务数据源,这些数据源可能存储在不同的硬件平台上,使用不同的操作系统,由于各种原因,不可避免地产生很多的数据质量问题,主要表现为:(1)相似重复记录;(2)异常记录。数据清洗的目标就是对数据仓库的数据进行整理和规范,消除歧义,提高数据质量,因此数据清洗被认为是数据仓库建设过程中需要解决的最重要问题之一。本文首先论述数据质量的相关理论,进而分析了数据清洗的必要性以及国内外数据清洗研究动态,同时阐述了数据清洗的相关理论。重点对相似重复记录检测及异常记录检测所用到各种算法进行了深入的研究,并提出相应的改进算法,在此基础上设计了一个数据清洗的框架模型,实验和实践表明,相应的改进算法有很好的效果,数据清洗框架模型有很强的实用价值。本文的主要工作有:(1)提出基于等级分组的相似重复记录检测算法。根据等级法计算每个字段的权值,按照分组思想,选择某关键字段或字段某些位将大数据集分割成许多不相交的小数据集,再在各个小数据集中检测相似重复记录,并引入多趟查找算法,实验表明此算法能快速准确检测重复记录。(2)提出基于加权快速聚类的异常记录检测算法。首先,每个属性被赋予一定权值,权值的大小要体现其对分类的贡献度,并根据属性的权值的特点,选择比较优良的初始分区,然后进行多次迭代,得到接近最优分区,接着运用一定规则,发现异常记录,实验表明此算法检测异常记录有很好的效果。(3)设计可扩展和可交互的数据清洗系统,建立了数据清洗框架模型,针对不同类型的异常记录和重复记录,设计了相应的检测算法和清洗策略,并给出评估指标。系统具有可扩展性、可交互性、通用性,该系统在常住人口的数据清洗工作中得到很好应用。