在数据清洗过程中基于MMDB的数据匹配技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hjiejngd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文所讨论的数据清洗是通过对数据库海量数据冗余信息的匹配、探测并去除错误数据和矛盾数据、提高数据质量的过程。数据质量问题出现在多个数据集合之间。由于出现数据输入错误、数据源异构、数据表示方法通用性差等情况,从而导致现有的数据库中存在这样或那样的“脏数据”。这些“脏数据”大大地干扰了数据处理结果的正确性、有效性和利用率。“数据清洗”利用数理统计、数据挖掘和预定义行业专家库等技术,将“脏数据”转化为满足数据质量要求的数据。为此,“数据清洗”过程在银行、电信、移动的海量数据管理和维护中显得越来越重要。数据清洗过程可大致分为:数据解析、数据格式规范化、数据匹配、数据修正、清洗结果检查这5个比较大的步骤。本文主要讨论的焦点在于海量数据的数据匹配问题,利用现在发展比较迅速的内存数据库系统(Main Memory Database System, MMDB)的相关技术,根据数据匹配的一些特殊性,提出了一种MDB-树索引结构,以及该索引结构下的插入算法和查询算法。数据匹配从一定程度上可以说是数据库记录的精确匹配查询。传统的数据库查询优化的关注点是减少访问磁盘数据的I/O次数。面对数据清洗中海量数据匹配查询,以前旧的DRDB (Disk-Resident Database)已经不再适用。随着计算机硬件技术的发展,在内存中存贮整个数据库数据已经成为可能。这使得内存数据库系统(Main Memory Database System, MMDB)近年来发展迅速。它把所有数据都放入内存中,避免了在查询过程中大量的磁盘I/O操作,在一定程度上提高了查询的执行时间。在MMDB上,由于没有磁盘的I/O操作,因此提高数据匹配效率的关键变成了处理器的计算时间和缓存的有效利用率。处理该问题的方法很多,其中一种方法就是建立合理的数据索引结构,减少查询过程中的匹配失效,从而缩短处理器的执行时间。本文详细研究了现在数据库的数据索引结构,并根据数据匹配的一些特殊性,提出了一种MDB-树(Main Delicate B -tree)索引结构,以及该索引结构下的插入算法和查询算法。利用Cache和TLB失效模型和执行时间模型,对该索引结构和常见的索引结构进行了性能分析。从分析结果中可以看出,MDB-树索引结构克服了原有的索引结构在MMDB中暴露出输出速率提升水平低、缓存冲突过多、使用指针过度等缺点,提高了数据匹配效率。
其他文献
本文对基于旋转平台的物体表面三维重建方法进行了研究。我们的测量装置由一个旋转平台和一台固定的摄像机组成,物体可随旋转平台旋转运动,摄像机固定不动。对该系统进行研究,具
入侵检测作为一种积极主动的安全防护技术,它不仅能检测未经授权的对象对系统的入侵,而且也能监视授权对象对系统资源的非法使用。随着因特网应用的日益普及,基于网络的入侵
随着信息技术的不断发展,软件复用和软件构件化越来越受到业界的广泛关注。当前的构件技术还是存在许多需要进一步改善的地方,譬如传统的构件描述与检索方式,由于缺乏丰富的构件
支持向量机(Support Vector Machine, SVM)作为近年来发展迅速的一种新型的、基于机器学习的一种模式识别算法,具有很好的推广能力,使其应用于多个不同的领域中。目前,SVM分
随着搜索引擎、社交网络以及聊天机器人等应用场景的发展和普及,短文本相似度计算在信息检索、文本分类、智能问答和机器翻译等研究和应用中发挥着重要的作用。传统的文本向
随着Semantic Web研究和Web2.0应用的发展,RDF数据被大量地发布。W3C发布的SPARQL查询语言和数据访问协议,担负着统一RDF查询和数据访问标准的重任。 课题旨在设计实现一个
采用转炉的方式是现在主流的炼钢手段,在转炉炼钢过程中,化渣是其中的一个关键过程。自动炼钢要求利用计算机技术对化渣状态准确、及时判定,作为控制系统实时调控的依据,使得炼钢
自九十年代产生以来,数据挖掘技术的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。在常见的非结构化数据如文本、图像、视频中,文本数据
随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。为了能在海量纷杂的文本信息中及时准确地获得
从大型数据集中发现有趣的,有用的且预先未知的知识的过程被称为数据挖掘。数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大型数据集中提