【摘 要】
:
随着互联网技术与云计算的发展,各行各业的数据量都在快速增长,大数据的时代已经到来。在电信领域,用于监控网络流量的网络流量数据也在迅速增长,其存储分析急需大数据技术的
论文部分内容阅读
随着互联网技术与云计算的发展,各行各业的数据量都在快速增长,大数据的时代已经到来。在电信领域,用于监控网络流量的网络流量数据也在迅速增长,其存储分析急需大数据技术的支持。开源的Hadoop大数据平台顺势而出,其生态系统下的HDFS与Map Reduce两大重要组件在一定程度上解决了网络流量大数据的需求。目前,HDFS已经能够很好的完成大数据的存储,但是Map Reduce作为一个批处理模型,不能完成其他的数据分析需求,如交互式处理和流式数据处理。这也导致在分布式计算领域形成了Map Reduce、Impala、Storm等计算框架并存的局面。Apache Spark是一个快速并且通用的大数据处理引擎,能够用于处理流式数据、SQL查询、机器学习以及图计算等分析场景。在网络流量大数据的分析中,大表关联查询操作非常多,而Spark中的Join操作性能较低,其原因是大量不符合连接条件的数据参与了Shuffle阶段,这导致大量的网络通信开销和磁盘I/O开销。首先,本文针对大表等值连接,提出了一种基于Bloom Filter数据结构的Spark Join优化方式,这种Join方式能够预先过滤掉大部分不符合连接条件的记录。然后,本文提出了一个基于改进后Spark的网络流量大数据平台。在这个平台中,本文详细地讲述了Spark以及Spark生态系统中的各个组件如何用于处理网络流量数据的分析处理。最后,本文以两个实验来验证了本文的研究内容,优化后的Spark Join方式能够减少网络通信的开销,进而减少Shuffle阶段的时间,并且在网络流量大数据处理场景中,Spark计算框架的性能要优于传统的Map Reduce计算框架。
其他文献
“数据驱动学习”(Data-driven Learning,以下简称DDL)是一种运用语料库进行语言学习的学习方法,具体指“课堂教学中引导学生利用计算机产生的索引(Concordance)来对目标语进
当今世界各国家(地区)的篮球事业处于快速发展的阶段,不同形式类别的篮球项目都有着快速的普及与发展,尤其是欧美国家的篮球运动事业,引领着全球篮球运动的步伐。在美国流行着
大遗址是中国特有的对规模大、价值大的文化遗址的总称。随着各国对文化遗产保护和开发的重视,大遗址再一次成为学界和业界关注的焦点,尤其在中国当前快速的城市化进程中,大
西安在过去半个世纪内不断的探索实践,已经逐具较为明显的城市风貌,并形成典型的“西安模式”。西安作为以旅游业为主的新一线城市,该产业越来越成为西安经济发展的重要推动
目的探讨一套切合临床实际的ICU临床专科护士在职培养模式。方法对符合条件的49名观察组护士进行在职专科护理培训,60名对照组护士接受传统的规范化培训,比较培训前后两组护
云南地处东盟-自由贸易区,贸易经济逐年增长,同时货运量也随着增加,云南正逐渐成为经济区位上的物流中心,这给云南经济带来了新的增长点——物流业。因此,云南省应利用自身区
恢复性司法是一种新型的处理犯罪的司法模式,以尊重被害人利益为核心,强调被犯罪所破坏的社会关系的恢复,能有效地抗制犯罪和保持社会的和谐。由于我国有着不利于恢复性司法
目的了解护士身心健康状况与工作投入的相关性及影响作用,为改善护士身心健康状况和护士工作投入状态、稳定护理队伍及开发人力资源提供政策依据。方法采用自测健康量表、贝
从真空干燥的特性入手,以制药工业常用的双锥回转式、真空箱式、真空圆盘刮板式(连续盘式)、真空耙式四类真空干燥设备为代表,阐述了其原理、特点、应用与选择注意点,同时综
作为一种古老而又特殊的企业组织形态,家族企业在国民经济的发展中发挥着非常重要的作用。不管是在“没有对家族形式的借用就不会有产业化和现代市场经济”的东方国家,还是在