一个数据清理工具的设计与实现

来源 :中山大学 | 被引量 : 0次 | 上传用户:xiaoyao984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大型的、现实世界数据库或数据仓库中的数据有一些共同的特点:数据不完整(有些感兴趣的属性缺属性值,或只包含聚集数据)、含噪声(包含错误的或存在偏离期望的孤立点值)、数据不一致.数据预处理技术可以改进数据的质量,从而有助于提高其后的数据挖掘过程的精度和性能.由于高质量的决策必然依赖于高质量的数据,因此数据预处理是数据挖掘过程中的主要步骤,而数据清理则是数据预处理的重要组成部分.该文首先介绍了数据清理的一些基本内容,以及当前国内外的发展形势.然后在第二章介绍了数据清理中的空缺值处理方法,主要是判定树归纳算法及其在应用中的改进方法.在第三章介绍了噪声数据的清理方法,主要是结合了判定树归纳和分箱平滑的方法.最后介绍了一个数据清理的工具,使用前面所提到的两种方法对数据进行清理操作.
其他文献
Internet改变着我们工作和生活的方式,已经成为获取信息、解决问题的重要途径。在计算机辅助教学领域的今天,网络化也势不可挡,随着教育信息化进程的不断加快,我国远程教育网
随着计算机技术的发展,信息技术的应用越来越普及,企业计算向网络组件方式发展,目前存在三种组件平台技术:CORBA(Common Object Request Broker Architecture)、COM+(Compone
近年来随着软件技术的飞速发展,基于构件的软件开发方式已经成为软件工程领域的发展趋势。通过复用已有的构件,软件开发者可以快速构造大型的应用软件,这大大节省开发时间和经费
刀具切削是机械制造业中零件加工的最主要方法,它在机械工业中占有举足轻重的地位。如何提高刀具切削加工的生产效率,降低加工成本,一直是机械加工领域专家们不断探索和致力
生产执行系统MES(Manufacturing Execution System)是面向企业生产管理的新一代信息系统.可重构的MES系统能够通过配置适应外界环境的变化,不仅适用于更多的企业,同时也能够
过程改进技术正成为软件过程的研究热点,而软件过程评估在软件过程改进中的作用至关重要。目前基于CMM和ISO/IEC 15504的这两种评估方法是得到世界公认,使用最广的。但这种评估
DDS(数据分发服务)是一种发布/订阅模型,它主要适用于以数据为中心的系统,而非以服务为中心的系统,即关注于数据而不是过程和服务。它独有的特点使得使用它的环境监控系统都能提高
IEEE将软件测试定义为:使用人工或自动手段来运行或测定某个系统的过程,其目的在于检验它是否满足规定的需求或是弄清预期结果与实际结果之间的差别。作为保证软件质量最为有
随着计算机网络技术的飞速发展,互联网已成为海量信息的主要载体,如何有效的利用这些信息,对人们来说是一个巨大的挑战。搜索引擎作为信息检索的工具,现已成为用户访问互联网的入
互联网的飞速发展促使电子商务大范围的开展,由于传统的分布式计算模型在互操作性方面的局限,从而不能最大限度的利用Internet上的资源,也很难实现真正意义上的资源共享。以X