【摘 要】
:
现实世界的数据往往是不完整,不一致和有噪音的,致使我们在进行数据挖掘之前必须进行一定的数据预处理工作。数据预处理的主要内容包括:数据清洗、数据集成、数据变换和数据
论文部分内容阅读
现实世界的数据往往是不完整,不一致和有噪音的,致使我们在进行数据挖掘之前必须进行一定的数据预处理工作。数据预处理的主要内容包括:数据清洗、数据集成、数据变换和数据规约。本文是在系统分析总结数据预处理各种方法的前提下,针对某移动通信公司离网用户数据共有70多张表,400多个属性,最高缺失率为28.3%,含记录最多的表有200多万条的特点,选用了数据预处理中的10余种方法对数据进行预处理的过程。本文的主要工作如下:(1)文中首先提出了数据质量问题的概念,并对各种数据质量问题对应的数据预处理方法进行了总结。(2)针对28.3%的数据缺失情况,放弃简单删除的传统做法。提出采用数据插补方法,并对各类数据插补方法进行对比分析,最终选取多重插补算法。由于应用插补的数据有683715条,属于大规模数据,为了保证插补效果,我们先通过小样本实验的方法,在比较插补效果后,确定了最佳插补次数,最终完成插补过程。得到了完整的并且近似真实的数据集。(3)通过多重插补、属性子集选择、属性集成、属性构造、离散化数据、规范化数据、数据抽样等方法后,将得到的数据代入数据挖掘模型中,所获取的信息得到了项目方的充分肯定。从而验证了数据预处理的有效性和意义。
其他文献
存储部件是计算机系统的重要组成部分之一,随着计算机技术的发展以及人们对数据存储量的需求不断增大,大容量存储系统已经出现在了各大企事业单位的机房当中,因此作为专门的
目的了解安徽医科大学第一附属医院临床分离鲍曼不动杆菌对临床常用抗生素的耐药性和碳青霉烯酶产生情况,以及了解鲍曼不动杆菌β-内酰胺酶基因型,尤其是OXA型碳青霉烯酶基因
预压装配式预应力混凝土框架,采用工厂化生产的预制柱和预制预应力梁,运至现场直接吊装,梁柱就位后,将后张预应力筋穿过梁、柱预留孔道,对节点实施预应力张拉预压。后张预应
目的探讨mTOR/P70S6K信号通路及磷酸化核糖体蛋白S6激酶(p-P70S6K)在人胶质母细胞瘤细胞系A172增殖及凋亡中的意义。方法1.应用细胞培养技术培养人胶质母细胞瘤细胞系A172,将
腰痛是一种常见的临床症状综合征,严重干扰人们的工作和生活,非手术治疗是最常用的治疗手段。如何对现有的治疗方法和技术进行客观评价,是目前重要的指标。以往常仅评价单一
改革开放三十年来,广东经济总水平一直是全国的排头兵,而特别是在2009年经历了世界金融危机后,广东经济率先复苏,从而使我们清醒地认识到广东的重要性。不经历风雨,怎么见彩
在全球化进程不断加快的过程中,不同民族、不同地域、不同国家的不同语言差异使得翻译成为一个必不可少的纽带.新闻,作为各国各地信息的一个缩影,涵盖领域广泛,包括政治、经
目的:1探讨冠心病患者睡眠呼吸暂停(SAS)与心肌缺血事件的关系。2评价伴有SAS的冠心病患者与单纯的冠心病患者之间在年龄性别等一般情况以及冠脉造影结果上的差别。3比较伴有
随着全球一体化进程的加快,港口在国际贸易、国际物流等方面的地位越来越突出,其功能也日益完善。港口已逐步转变为综合运输体系网络中的核心节点,并成为了商品流、资金流及
全球每一次的经济危机爆发,都伴随着产业结构的深刻调整。2008年开始的世界金融危机,又一次使世界各国更加意识到产业结构优化的重要性。第三产业在经济中的作用越来越大,只