关系数据库数据清理技术研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:tklsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今世界,企业信息化的要求越来越迫切,其中一个重要的方面就是企业的数据的管理。根据“进去的是垃圾,出来的也是垃圾”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有错误,能准确地反映企业的实际情况,因此企业数据质量的管理正在获得越来越多的关注。 在现实中,数据一般都存在各种各样数据质量问题,含有各种类型脏数据。数据清理是提高数据质量的重要途径。针对这一课题,论文包括如下几个方面的研究工作: ·相似重复记录清理对于相似重复记录的清理,本文着重从重复记录识别和相似记录检测两方面进行了研究。重复记录识别本文主要研究了基本邻近排序方法和优先队列算法;相似记录匹配本文分析了几种核心的字段匹配算法,针对字段值的特点采用基于编辑距离的字段匹配算法,同时设计了利用有效权值和长度过滤的优化算法进行记录匹配,减少相似重复记录的检测时间,提高算法的效率。 ·空缺数据清理对于空缺数据的清理,本文设计了一种清理方案。首先分析数据的可用性;然后删除不可用记录;最后,对可用记录通过选用填充空缺值的方法来处理该记录的空缺数据,从而完成数据源中空缺数据的清理。本文着重分析了判定树归纳的方法来处理空缺数据,并对判定树归纳法进行了变形。实验证明,判定树归纳变形算法速度快精度也较高。 ·错误数据清理针对数据源中出现的错误数据,研究了如何采用业务规则这种方法来检测错误数据的重要性,并设计了将数据分类与平滑结合的算法去除噪声。这种算法既能对数据进行平滑,减少孤立点出现的可能,又不会出现因为进行平滑而改变了数据所处类的问题。 ·数据清理框架结合以上所分析和研究的算法,本文设计了一种数据清理框架。它是集成了一系列数据清理方法,并能利用具体业务知识、可扩展的数据清理工具框架。这样方便使用者从丰富的数据清理工具中选择适合领域问题的清理方法,从而提高数据清理算法在不同应用中的清理效果。
其他文献
汽车发动机机械故障诊断系统是一种用于对处于调试、运行中的发动机进行在线检测与故障诊断的智能仪器系统。其工作原理是利用振动传感器直接采集发动机产生的非正常振动信号
随着计算机系统规模的不断扩大和复杂性的不断增长,网络安全性问题成为计算机领域日益关注的焦点。计算机网络从最初的侧重于信息的保密性发展到如今网络安全信息的完整性、可
伴随网络通信技术的日益发展,人们在生活里中越来越频繁地使用到互联网,互联网给人们带来的便利也深入到日常生活的各方各面。但是网络上存在着越来越多的窃听、截获、篡改、
近些年来,无线传感器技术得到了迅速的发展。由于无线传感器网络WSN(Wirless Sensor Networks)在实时数据采集以及无线信息传输等很多领域,具有操作简单、方便灵活特点,已成
本文提出了APA-ANTI-DDoS模型来检测和防御DDoS攻击。APA-ANTI-DDoS模型包括异常流量聚集、协议分析和流量处理三个子模块。异常流量聚积把网络流量分为正常流量和异常流量。
大型企业的计算设施通常是由开放平台和大型机组成的多服务器异构环境,实现二者的计算资源集中存储和共享访问,对降低企业的存储管理成本具有非常重要的作用。 基于存储区域
煤炭是我国重要的战略能源资源之一,对国民经济的发展和社会的稳定起着关键的作用。然而目前对于煤炭的开采由于种种原因造成了不断发生重大的和恶性的安全事故。因此,研制一套
学位
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消歧和跨语