论文部分内容阅读
随着Web技术的逐渐成熟以及快速发展,越来越多的用户可以通过互联网访问自己想要的信息。因此,用户通过互联网所能获取的信息量呈指数级的速度增长。互联网中的海量信息一方面为用户提供了获取信息的源泉,另一方面也为用户高效获取有价值的信息带来了不小的挑战。如何通过对用户访问互联网的数据的挖掘来获取用户潜在的兴趣或其他有用的信息,以此来为用户提供个性化、智能化的信息服务已成为人们的迫切需求。 互联网Web日志挖掘(WebLogMining)正是在这种背景下产生的。但是随着数据的大量积累,面对无比庞大的海量数据,目前的单机处理模式已然不能满足大数据(BigData)处理的需求。因此,面向大数据处理的Hadoop平台也随之出现。 本文的主要研究内容是:基于Hadoop环境下的互联网访问日志数据预处理相关技术的研究与应用。 首先,简要概述了论文的选题背景与意义,并介绍了本文的主要研究内容和国内外的相关研究现状;然后,对Web日志挖掘进行了简要概述,重点阐述了其中的Web日志预处理,并对其中的每个步骤进行了概括。 其次,介绍了当前热门的大数据分布式处理平台——Hadoop,通过对目前单机大数据处理技术的研究,将其移植到Hadoop环境中。在研究的基础上,提出一种基于并查集的会话识别算法,并根据日志Cookie中用户的相关账号信息进行用户识别。为后期的数据挖掘提供较为准确的用户信息数据。 最后,在用户识别的基础上,对用户浏览日志中的搜索记录进行自然语言处理,提取出用户的搜索字词以及词汇的分类信息。通过这些搜索字词将来就可以归纳出用户一段时间内的兴趣点。 论文在已有研究的基础上,主要做了以下几个方面的创新研究工作:首先探讨了互联网Web日志挖掘中的一个主要问题,即Web日志的数据预处理问题;针对目前单机大数据处理模式的不足,成功将其移植到分布式处理平台Hadoop中;根据用户浏览页面的链接关系提出了一种并查集的会话识别算法,并根据用户相关账户信息进行用户识别;又通过用户搜索记录的自然语言处理,归纳出用户的搜索字词及分类信息,为后期用户兴趣爱好,行为习惯的挖掘工作做好了充分准备。通过本文的研究工作,将为今后的Web日志预处理研究打下坚实基础。