互联网访问数据预处理研究与应用——基于Hadoop

来源 :东华大学 | 被引量 : 0次 | 上传用户:baiyunmtq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术的逐渐成熟以及快速发展,越来越多的用户可以通过互联网访问自己想要的信息。因此,用户通过互联网所能获取的信息量呈指数级的速度增长。互联网中的海量信息一方面为用户提供了获取信息的源泉,另一方面也为用户高效获取有价值的信息带来了不小的挑战。如何通过对用户访问互联网的数据的挖掘来获取用户潜在的兴趣或其他有用的信息,以此来为用户提供个性化、智能化的信息服务已成为人们的迫切需求。  互联网Web日志挖掘(WebLogMining)正是在这种背景下产生的。但是随着数据的大量积累,面对无比庞大的海量数据,目前的单机处理模式已然不能满足大数据(BigData)处理的需求。因此,面向大数据处理的Hadoop平台也随之出现。  本文的主要研究内容是:基于Hadoop环境下的互联网访问日志数据预处理相关技术的研究与应用。  首先,简要概述了论文的选题背景与意义,并介绍了本文的主要研究内容和国内外的相关研究现状;然后,对Web日志挖掘进行了简要概述,重点阐述了其中的Web日志预处理,并对其中的每个步骤进行了概括。  其次,介绍了当前热门的大数据分布式处理平台——Hadoop,通过对目前单机大数据处理技术的研究,将其移植到Hadoop环境中。在研究的基础上,提出一种基于并查集的会话识别算法,并根据日志Cookie中用户的相关账号信息进行用户识别。为后期的数据挖掘提供较为准确的用户信息数据。  最后,在用户识别的基础上,对用户浏览日志中的搜索记录进行自然语言处理,提取出用户的搜索字词以及词汇的分类信息。通过这些搜索字词将来就可以归纳出用户一段时间内的兴趣点。  论文在已有研究的基础上,主要做了以下几个方面的创新研究工作:首先探讨了互联网Web日志挖掘中的一个主要问题,即Web日志的数据预处理问题;针对目前单机大数据处理模式的不足,成功将其移植到分布式处理平台Hadoop中;根据用户浏览页面的链接关系提出了一种并查集的会话识别算法,并根据用户相关账户信息进行用户识别;又通过用户搜索记录的自然语言处理,归纳出用户的搜索字词及分类信息,为后期用户兴趣爱好,行为习惯的挖掘工作做好了充分准备。通过本文的研究工作,将为今后的Web日志预处理研究打下坚实基础。
其他文献
双层规划是一类具有两层递阶结构的系统优化问题,在数学规划领域得到蓬勃发展,成为运筹学一个分支,目前已成功应用于诸多领域中,如经济学、管理学、金融学、工程应用等。同时
时间序列数据广泛地存在于生产生活的各个方面,其反映了事物不易直接观察的内部状态。与传统分类有所不同,时间序列分类过程中各个属性之间都是有次序关系的,因此时间序列分类问
当前信息时代,伴随着信息的极大丰富,人们如何有效选择信息成为急需解决的问题。在这样的背景下,推荐系统因其高效性和智能性,而倍受学术界和工业界关注。传统的推荐算法虽然有不
聚类分析是一种非监督的机器学习方法。在数据集分布情况未知时,通常分析员会寻找一种合适的聚类算法将数据集人为地划分成若干类,从而揭示这些数据的真实分布。聚类分析是多元
多租户数据存储是软件及服务(SaaS,Software as a Service)中一个重要的研究内容。针对SaaS应用“单实例多租赁”的特点,人们提出了很多解决多租户数据存储问题的方法,其中基于关
移动轨迹数据记录着移动对象在真实世界的活动,而这些活动往往体现了该移动对象的意图、喜好和行为模式。通过对轨迹数据的挖掘,可以为用户提供各种形式的增值服务和工具,这
数字化时代,图像作为一种信息的载体,在人们的日常生活中扮演着越来越重要的角色。图像中包含有大量的信息,其中图像边缘即图像中的高频部分,是图像的重要特征,图像边缘检测是进行
调度问题是一类重要的组合优化问题,广泛应用于生产制造、现代物流、网络通信和计算机科学等领域。批处理机调度问题是经典调度问题的拓展。在批调度问题中,一台机器可以同时
随着现代信息技术的飞速发展,“信息爆炸”产生的危机日益殃及个人信息管理,信息的爆炸性增长使人们日常需要处理的信息量迅速增长。用户面对浩如烟海的信息世界,往往无法快速准
智能移动机器人的研究课题在近年来越来越受到国内外各大科研机构和研究学者们的青睐,其中,目标识别和自主定位问题是实现机器人智能化和全自主的主要任务。各种识别算法和定