基于Elasticsearch的实时大数据统计分析平台的研究与设计

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xiaogui999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了全面落实《电信和互联网用户个人信息保护规定》和《电话用户真实身份信息登记规定》的要求,工信部下属的信息与通信研究院建设电信身份信息核查平台,为电信企业提供统一的身份信息核查。同时,为推动实施国家大数据战略,对身份信息核查业务进行实时的、多角度的大数据业务统计和平台监测,本论文从实际需求出发,结合新版本的Kafka 2.0.0、Spark Streaming 2.4.0、Elasticsearch 6.4.0,设计并开发一款实时大数据统计分析平台。本论文采用Spark Structured Streaming数据流处理系统作为基础,设计了一个基于Elasticsearch全文检索系统的实时大数据统计分析平台。该平台以Grizzly Nio Http接口作为数据入口,Kafka为数据管道,充分利用Kafka数据高速传输和负载均衡的能力。采用Spark Structured Streaming对数据进行流计算和批计算,即时输出简单的统计信息,并将处理后的结构化数据存储至Elasticsearch。本系统采用最新的Grizzly Nio Http接口和Java11,以代替目前通用的Netty Nio Http接口。Grizzly和Java11的组合提供了高质量应用服务器的结构化接口,能高速提供Http服务。系统采用Spark 2.0所提供新特性Spark Structured Streaming架构。该架构同时包含高效的流计算和批计算,能有效地对数据流进行实时处理和转发。其特有的端到端设计能有效减少网络IO读写延时,并且架构中有针对Kafka和Elasticsearch的专用优化接口。为了节省硬件资源,通过合适的方案设计和系统配置,Kafka、Spark Streaming和Elasticsearch三个核心组件将分别着重消耗不同的硬件资源,能同时部署在同一台服务器上,从而减少了服务器数量。系统架构简单,数据流向清晰,而且部署简单,开发方便,移植性强。本文在3台10核2.4GHz CPU,256GB内存,24块2TB 3.5寸SATA硬盘的服务器上部署本系统,并进行功能和性能测试。测试结果表明,该测试系统在每条数据227字节、40万条/s的数据输入中,能达到数据延迟不大于1s。在使用了Java11后,Full GC频率明显下降;在使用了Grizzly Nio后,相比通用的Netty Nio平台提速22%;在使用了Spark Structured Streaming后,入库延迟相比Spark Streaming减少了34%。
其他文献
胆固醇是体内最丰富的固醇类化合物,因最早从胆石中发现而被命名。从上世纪初开始,胆固醇一直是基础医学和临床医学研究的热点,这不仅是因为胆固醇是机体生物膜必不可少的结构成
在音乐人类学的民族民间音乐研究中,不可避免会遇到学科、学者、政府、媒体、文化产业、地方各类组织和人群各有价值倾向,其中有许多冲突现象。应该如何解决这些冲突?本文认
目的 :比较菊花叶和菊花的黄酮类化学成分 ,测定菊花叶中总黄酮的含量。方法 :采用薄层层析和比色法。结果 :菊花叶和花的黄酮类化合物基本相似 ,总黄酮含量为 :亳菊叶 5 5
<正> 作者从1990年10月至1998年10月,根据筋骨并重治疗原则,采用筋骨同治方法,治疗骨伤科病人482例,均取得满意的效果,现将治疗方法报告如下。1 治疗方法1. 1 急性损伤期(伤
期刊
教师基于自己的学科知识、经验等,借助于"课例学习+行动跟进+经验打磨+实践反思"等"行动学习"策略进行教学设计,实现有效教学,不断重组、提升学科教学知识。通过强化教学设计
目的 探讨不同控制水平的哮喘儿童血清维生素D(25(OH)D)水平和Clara细胞分泌蛋白16(CC16)水平及临床意义。方法 纳入106例哮喘患儿为研究对象,依据哮喘控制水平分级标准分为
通过萝卜的2+X田间试验,探索萝卜需肥规律及增产效应,确定萝卜的施肥方法及数量,为萝卜的优化施肥提供科学依据。
随着国民经济及公路交通事业的发展,道路沿线居民受到了越来越严重的交通噪声危害。以轻型交通为例,在高速行驶的条件下,交通噪声的主要构成是轮胎/路面噪声,因此找到轮胎/路面