基于Hadoop的水情数据清洗方案研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:triumphis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的不断发展,分布式存储的航运数据快速积累,数据量迅猛增长,目前的航运数据具有庞大、繁杂,良莠不齐的特点。而在这庞大繁杂的数据中,数据既包含了大量有重要价值的信息,有待研究人员挖掘;还包含了大量的问题数据,给数据的有效挖掘造成了不良影响。因此,问题数据的清洗是数据挖掘过程的首要任务。然而,现有的许多数据清洗方案清洗的广度不够,只能解决数据中的部分问题,没有全面的解决方案。同时,清洗时间效率不高,针对大数据的处理,现有解决方案比较少。针对以上的问题,本文以航运数据中的结构化的水情数据作为基本研究、实验对象,针对数据中可能存在的缺失,离群和重复的数据问题,提出了一套基于Hadoop的分布式、清洗策略可选的清洗方案,根据清洗需求,选择合适的清洗策略。本文的主要工作如下:(1)针对缺失数据清洗算法的准确性问题,本文提出了以缺失数据为聚类中心的思想,首先对缺失数据集进行聚类,并利用基于权重的数据填充算法对缺失数据进行填充,改进了基于聚类的缺失数据清洗算法。同时,利用MapReduce编程模型对算法并行化实现。实验证明,改进的缺失数据清洗算法有效地保证了类中数据对象和聚类中心之间的高相关性,缺失数据清洗的填充精度提高了约10%。(2)针对离群数据清洗算法的时间效率问题,本文提出了聚类分区和剪枝的方法,改进了基于距离的离群数据清洗算法。通过聚类分区和剪枝的方法,筛选待清洗的区域,缩小了离群数据的检测范围,减少了计算量。同时,利用MapReduce编程模型对改进算法并行化实现。实验证明,改进的离群数据清洗算法的时间效率提高了约30%。(3)针对现有的基于近邻排序(Sorting Neighborhood,SN)的重复数据清洗算法的检出性能低问题,本文提出了利用多关键字和多窗口的多趟近邻排序(Multi-Pass Sorting Neighborhood,MPSN)算法进行重复数据清洗。同时对改进的重复数据清洗算法并行化实现,在重复数据清洗算法并行化过程中,使用边界值复制和自动化分区的方法,解决了节点之间数据的比较问题和数据重分布问题。实验证明,改进的重复数据清洗算法的检出性能提升了约13%。
其他文献
文章结合宝丰县花生种植生产现状,介绍了选地施肥、品种选择、播种技术、田间管理.
固态硬盘是一种以闪存为存储介质的存储器。比起传统机械硬盘,固态硬盘有着高得多的顺序和随机读写速度,同时,其还有着诸如更高的防震性、无噪音、低发热量等优点。因此随着
目的:研究DPC4基因转染对结肠癌细胞生长的抑制作用及其作用机制。 方法:利用脂质体转染技术将PcDNA3.1-DPC4质粒和空载体PcDNA3.1质粒分别导入结肠癌细胞SW620;经G418筛选后
棚户区改造是一项涉及面广、群众关注度高的民生工程。一直以来,国家高度重视棚户区改造工作,将棚户区改造作为提升城市品质、改善城市民生、优化城市人居环境的重要工程。从
长距离混输管道按照一定的距离须设置紧急切断阀,以在干线管道破损时启动切断阀避免产生更大的泄露。因此,工作实践中研究探讨混输干线紧急切断阀工作特性非常必要,根据资料
<正>建文元年(公元1399年)七月,燕王朱棣以"靖难"为名起兵,夺取了北平城。建文帝朱允炆大惊失色,急忙下诏让驻扎在怀来的官军都督宋忠速速北上平叛。宋忠手下倒是有3万大军,
癌症的发生不是一日之寒。从一个正常细胞发展到癌细胞,时间大概需要十年到几十年不等。癌症的发展过程一般包括癌前病变、原位癌及浸润癌三个阶段。癌前病变是个可逆的状态3
<正>在中世纪的欧洲,牙痛者祈祷的对象是"牙痛之神"圣·阿波罗昵阿(Saint Apollonia)。据说受了牙痛之苦的人,只要向圣·阿波罗昵阿祈求立即会好。在欧洲,有关"牙痛之神"的故
期刊
本文通过介绍ARM Cortex-A8与嵌入式Linux的特点,描述了基于ARM Cortex-A8的嵌入式Linux开发一般流程。在介绍开发环境的配置方法之后,使用NFS进行程序远程下载调试的开发方
<正>立夏之后自然界的变化是阳气渐长、阴气渐弱,相对人体脏腑来说,是肝气渐弱,心气渐强。此时我们应合理安排作息时间,及时补充营养物质,采取正确的养生保健方法,以更好地度