基于Pig的网络流量分析与性能优化

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ltqhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学和移动通信的发展,互联网已经成为人们不可或缺的工具。每一次计算机和互联网的革命都会大大提升人们产生数据的能力,而每一次革命都会对数据的收集、存储和应用提出巨大的挑战。随着“互联网+”战略的提出,我国互联网应用正在逐步从量变走向质变。与此同时,服务提供商希望通过运用技术手段定位用户、精准推销,从而达到拓展新用户、维系老用户、实现盈利的目的。这种需求就带来了如何才能准确高效地对海量数据进行分析的问题,分析人员希望明确每种大数据分析工具的性能及其合适的使用场景,而这正是本文的研究目标。本文首先介绍当前我国移动互联网发展现状及其带来的问题,引入了以Hadoop为基础的分布式处理框架,以及更为易用的大数据处理工具Pig。其次,本文从MapReduce计算框架和Pig源代码入手,分析Pig的架构并从两个角度探讨它的性能影响因素。再次,本文对Pig的扩展性进行了介绍,并描述了在网络流量分析中对Pig相关函数的设计与开发工作。随后,利用HDFS和Pig建立的大数据平台,本文对国内主流移动阅读应用的流量模式和用户行为进行了分析,分析维度主要包括网站的流量、用户数、会话时长和行为类型。最后,本文将Pig与MapReduce和Hive的性能分别进行了对比,并在Multi-Query优化器、数据连接、数据读取和数据层优化几个方面研究Pig的优化方法。
其他文献
以往有关管理者特质、资本结构与企业价值的研究是基于经济学假设中的理性管理者的研究,理性管理者则是指在任何一环境前提下都能做出对企业长足发展有利的行为举措的管理者,
矿床水文地质是把地下水作为需要防治和排除的对象而加以研究的。因此,加强矿床水文地质工作,不仅能够保证能源与矿产开发的安全,还能相对提高我国的能源与矿产资源的产量,意
非贯通节理岩体是岩体工程中最常见、最重要的一种地质体。非贯通节理岩体破坏通常是由节理和岩桥破坏共同组成,整体的破坏特征表现为原生节理和自节理端部扩展的岩桥破坏面
科技期刊一直以来都被作为衡量科技发展水平的重要标志之一,它作为一种快捷的信息传播交流载体在促进学科发展、知识创新、推动科学技术进步等方面具有重要的作用。近些年来,
青梅富含人体所需的多种氨基酸和微量元素,极富营养价值。随着国内外对青梅食用价值和药物价值的利用研究,青梅产品也逐步从传统食品转向精深加工产品。根据青梅成分品质不同
光驱动的云无线接入网被视作下一代移动接入网。它将传统的基站分成了射频拉远端(RRH)和中央基带处理单元(BBU)池。通过使用灵活、弹性的光前传网络,射频拉远端和射频拉远端
实际油气藏的主要存在形式为裂缝、裂隙和孔隙,它们多表现多相(固相、流相和气相等)的形式。基于多孔隙介质的模型,由于充分地考虑了油气储层结构的各种特性,因此可以更好地
目前我国大型电力集团和供电公司都实现了信息化管理,但是现有系统主要是关于电力生产控制与监控方面,使用场景局限于有专用网络和电脑的固定工作场所,对于需要外出作业的负
非均质性和各向异性在描述储层特性方面具有重要的作用。数字岩心作为一种新的油田技术,在模拟研究储层的特性方面具有很大的应用前景。然而在目前,大多数基于数字岩心的模拟
太赫兹(THz)波是指频率从0.1THz到10THz,介于毫米波与红外光之间的电磁波,涵盖了亚毫米波及远红外光区域,兼有微波毫米波与红外可见光两个区域的特性,同时又与其他波段的电磁