基于Spark的Web日志分析处理系统

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:dnaln_xcl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志分析是收集用户浏览网页时产生的所有日志信息,并对这些日志进行数据转化、数据清洗、数据挖掘的过程。通过Web日志分析可发现用户的访问行为与规律,并据此优化网站结构,给用户带来更好的体验。但传统的日志数据分析处理大多基于串行处理,面对海量的大数据时,传统的日志数据分析处理就显得力不从心。Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台,是应对大规模日志数据分析与处理的强有力工具。本课题围绕基于并行计算的日志数据分析处理展开研究开发。研究了基于Spark平台的大数据并行处理方法、基于Spark平台的新型日志数据处理体系结构、基于Spark平台及Scala语言的大规模日志文件分析算法。在理论与技术研究的基础上,搭建了基于Spark的大数据处理平台,通过搜索引擎采集了实验用的Web网站日志文件数据集,存储在HDFS分布式文件系统中。应用Scala语言编码实现了大规模日志文件分析系统。该系统主要包括日志收集、日志存储、日志分析和数据展示四个模块。应用开源的Flume日志收集系统把待分析的数据导入分布式文件系统HDFS中进行存储;采用基于RDD的Spark内存计算技术进行日志数据的并行分析计算,大大提高了日志分析系统的执行速度。
其他文献
传统的双语词汇词典,一般由人工整理、编辑,具有权威度高、词条质量高的特点,但是其编制需要花费大量的人力、物力和时间。与此同时,随着互联网的发展和社会的发展,各种各样
由通用机器组成的大规模集群作为并行计算的有效途径之一,广泛应用于科学及工程中的计算模拟、海量数据处理等复杂问题中。并行编程模型是并行计算及开发并行软件的基础,是决定
随着移动互联网的快速发展,随时随地进行网络在线阅读已经成为现实。特别是以起点中文为首的在线读物网站为阅读爱好者提供了数以百万计的网络原创文学读物,丰富了文学爱好者的
上世纪90年代以来,随着互联网的发展,电子商务在社会经济领域发展迅速,电子商务推动了商业、贸易、营销、金融、广告运输、教育等社会经济领域的创新,给企业带来许多新的机会。现
随着网络资源的爆炸式增长,“信息过载”,“信息迷向”等问题的出现,用户如何快速有效地获取信息,成为现今信息服务系统亟待解决的问题。传统的信息服务也逐渐向个性化信息服
随着XML已成为互联网上数据存储和信息交换领域事实上的标准,人们已经开始习惯使用XML文档来存储、管理Internet上的海量信息资源,因而Web也正逐步转化为一个庞大的XML文档数
移动机器人在野外执行军事侦察、抢险救灾、农林作业等任务时,准确、快速的地形分类是保证这些特定任务完成的关键。针对传统地形分类方法存在的一些问题与实际森林环境地形分
在数据挖掘中,很多工作都集中在发现能够高效地对大数据库进行聚类分析的方法上。在现有的大量聚类算法中,尤其以K-means算法应用比较广泛。K-means算法以点为原型,能够实现
随着社会信息化的日益增强,互联网越来越成为人们日常生活中的一部分,人们越来越强烈地渴望用自然语言同计算机进行交流。但这有个前提就是计算机能够理解人类的自然语言,这
随着网络的普及和通讯技术的不断发展,数据信息被窃取、非法复制和传播的频率越来越高。图像作为信息的主要载体,其面临的安全问题也变得日益严重。近年来,由于光学信息处理