论文部分内容阅读
在21世纪的今天,飞速发展的互联网给人们日常生活带来了巨大的便利,各行各业都在向互联网化靠拢。同时,用户在网络上的行为足迹大多被记录在Web日志文件中,通过对这些文件进行有效的算法分析,将得到很多有价值的信息。和普通的文本挖掘文件源不同的是,由于人们经常进行网络操作,Web日志文件的数据量十分巨大,因此普通的串行化算法不再适用,而并行化算法开始在Web数据挖掘领域快速流行起来。Apache Hadoop作为目前最为成熟的并行化框架,被开发人员在Web数据挖掘中广泛的使用。在算法方面,使用并行化的聚类算法对Web日志文件进行运算,可以为日志文件所在站点在内容结构优化、用户内容推荐等方面提供依据。本文在Hadoop平台下利用Web日志文件作为数据源对象进行聚类分析,同时研究分析聚类算法。主要完成几个方面的工作:1.研究Hadoop和Web数据挖据的相关知识;2.进行Hadoop分布式平台的整体搭建,除了基本的Hadoop平台,还有Mahout的安装、Eclipse上Hadoop插件的安装、模块的配置和资源的分配、设计并行化预处理模型;3.研究Canopy算法和K-means算法的优缺点,结合两个聚类算法的基本思想,提出一种改进算法。4.研究Canopy和K-means算法并行化,利用MapReduce分布式计算模型进行算法并行化设计;5.设计算法对比实验,论证改进算法和并行化算法的优势,以及在实际应用上的价值。