数据清洗的若干关键技术研究

被引量 : 33次 | 上传用户:zxh1372226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球信息化进程加速推进,为了能在激烈竞争中占据有利位置,各行各业都在实施信息化工程,数据仓库的应用是信息化程度的重要体现之一,它是决策支持的基础。数据仓库中数据正确性对于数据仓库的应用至关重要,并会进一步影响后期的决策行为。由于数据仓库中的数据来自多种业务数据源,这些数据源可能存储在不同的硬件平台上,使用不同的操作系统,由于各种原因,不可避免地产生很多的数据质量问题,主要表现为:(1)相似重复记录;(2)异常记录。数据清洗的目标就是对数据仓库的数据进行整理和规范,消除歧义,提高数据质量,因此数据清洗被认为是数据仓库建设过程中需要解决的最重要问题之一。本文首先论述数据质量的相关理论,进而分析了数据清洗的必要性以及国内外数据清洗研究动态,同时阐述了数据清洗的相关理论。重点对相似重复记录检测及异常记录检测所用到各种算法进行了深入的研究,并提出相应的改进算法,在此基础上设计了一个数据清洗的框架模型,实验和实践表明,相应的改进算法有很好的效果,数据清洗框架模型有很强的实用价值。本文的主要工作有:(1)提出基于等级分组的相似重复记录检测算法。根据等级法计算每个字段的权值,按照分组思想,选择某关键字段或字段某些位将大数据集分割成许多不相交的小数据集,再在各个小数据集中检测相似重复记录,并引入多趟查找算法,实验表明此算法能快速准确检测重复记录。(2)提出基于加权快速聚类的异常记录检测算法。首先,每个属性被赋予一定权值,权值的大小要体现其对分类的贡献度,并根据属性的权值的特点,选择比较优良的初始分区,然后进行多次迭代,得到接近最优分区,接着运用一定规则,发现异常记录,实验表明此算法检测异常记录有很好的效果。(3)设计可扩展和可交互的数据清洗系统,建立了数据清洗框架模型,针对不同类型的异常记录和重复记录,设计了相应的检测算法和清洗策略,并给出评估指标。系统具有可扩展性、可交互性、通用性,该系统在常住人口的数据清洗工作中得到很好应用。
其他文献
本文介绍我院门诊中药饮片处方点评要点,并举例分析典型处方,为目前中药处方点评提供一定的借鉴意义。
社会主义事业发展视角下,习近平对乡村振兴战略的提出与批示,要求进一步提升农村经济发展水平,改善农民生活品质。在此过程中,金融产业发挥了重要的支撑作用。互联网时代,农
湘西州矿业在可持续发展的过程中有其自身的特点和要求。通过分析湘西州矿业可持续发展的现状和特点,从经济、资源、环境和智力四个方面出发对影响矿业可持续发展的四个因素
张爱玲以其独特的女性视角和细腻悲凉的写作风格为我们展示了一个个女性的内心世界和悲剧故事,本文旨在从女性本体角度分析张爱玲小说特有的女性形象与心态意蕴。
介绍了峨眉山景区地质灾害的特征,对灾害进行了评估,针对性地提出了防治措施,对今后景区的防灾减灾工作具有学习参考价值。
“百年大计,质量第一”是建筑业最响亮的口号之一,工程质量也一直是社会热点问题。近些年来,虽然我国的建设工程质量水平有了很大的提高,但工程质量领域仍存在许多令人担忧的
内部控制是社会经济发展到一定阶段的产物,是现代企业管理的重要手段。在信息业日渐发达的现代社会,完善内部控制制度,不但能使企业的资源得到合理配置,提高劳动生产率,更能
本文通过对新疆矿业经济与周边国家和地区进行国际合作的分析,将俄罗斯、中亚选为合作目标区,并提出了利用“两个资源”、“两个市场”的战略构想,探讨新疆矿业经济步入国际
化学发光(CL)是化学反应的反应物或生成物吸收了反应中释放的化学能,电子由基态跃迁至激发态,再由激发态返回基态时所产生的光辐射。它不需要任何光源,具有灵敏度高、线性范
本文首先对信用卡犯罪的概念范畴进行了探讨,重点围绕不具有透支功能的银行卡是否属于刑法意义信用卡的问题,对刑法意义上的信用卡进行了界定。在明确信用卡犯罪概念的前提下