论文部分内容阅读
随着网络的不断发展,分布式存储的航运数据快速积累,数据量迅猛增长,目前的航运数据具有庞大、繁杂,良莠不齐的特点。而在这庞大繁杂的数据中,数据既包含了大量有重要价值的信息,有待研究人员挖掘;还包含了大量的问题数据,给数据的有效挖掘造成了不良影响。因此,问题数据的清洗是数据挖掘过程的首要任务。然而,现有的许多数据清洗方案清洗的广度不够,只能解决数据中的部分问题,没有全面的解决方案。同时,清洗时间效率不高,针对大数据的处理,现有解决方案比较少。针对以上的问题,本文以航运数据中的结构化的水情数据作为基本研究、实验对象,针对数据中可能存在的缺失,离群和重复的数据问题,提出了一套基于Hadoop的分布式、清洗策略可选的清洗方案,根据清洗需求,选择合适的清洗策略。本文的主要工作如下:(1)针对缺失数据清洗算法的准确性问题,本文提出了以缺失数据为聚类中心的思想,首先对缺失数据集进行聚类,并利用基于权重的数据填充算法对缺失数据进行填充,改进了基于聚类的缺失数据清洗算法。同时,利用MapReduce编程模型对算法并行化实现。实验证明,改进的缺失数据清洗算法有效地保证了类中数据对象和聚类中心之间的高相关性,缺失数据清洗的填充精度提高了约10%。(2)针对离群数据清洗算法的时间效率问题,本文提出了聚类分区和剪枝的方法,改进了基于距离的离群数据清洗算法。通过聚类分区和剪枝的方法,筛选待清洗的区域,缩小了离群数据的检测范围,减少了计算量。同时,利用MapReduce编程模型对改进算法并行化实现。实验证明,改进的离群数据清洗算法的时间效率提高了约30%。(3)针对现有的基于近邻排序(Sorting Neighborhood,SN)的重复数据清洗算法的检出性能低问题,本文提出了利用多关键字和多窗口的多趟近邻排序(Multi-Pass Sorting Neighborhood,MPSN)算法进行重复数据清洗。同时对改进的重复数据清洗算法并行化实现,在重复数据清洗算法并行化过程中,使用边界值复制和自动化分区的方法,解决了节点之间数据的比较问题和数据重分布问题。实验证明,改进的重复数据清洗算法的检出性能提升了约13%。