基于Disruptor的高效ETL系统研究与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:szfsdfsdfsfasF
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,各种行业应用中对多源异构数据的处理量飞速增长,如何对其进行高效的整合是是数据应用中的核心问题。然而,现有的数据整合工具在扩展性、性能、功能等方面存在不足,难以应对当下不断变化的数据整合需求。为此,本文基于Disruptor队列技术设计与实现了一个易扩展的高效ETL系统。首先本文研究并设计了一种基于插件式理念的“Framework + Plugin”ETL系统架构,并完成了系统功能模块和任务执行流程的设计。该架构具有良好的可扩展性,可针对不同的数据源提供具体的适配,从而能较好地解决数据的多源异构问题。然后,本文对ETL系统的性能优化展开了进一步的研究。首先,通过对“生产者--消费者”模型中数据缓冲区的实现方法进行了探索与验证,找到了传统ETL工具中基于阻塞队列技术的缓冲区性能问题所在,并基于Disruptor对数据缓冲区进行了性能优化,通过性能测试对Disruptor在性能方面的改进进行了验证。其次,采取了多线程并发的调度策略进行了 ETL工作流的设计。接下来,本文以传统ETL工具的实时抽取功能为基础,分析了其问题所在并设计了相关优化策略,设计并实现了一种可以进行动态频次调整的近实时抽取方法。最后本文详细陈述了该ETL系统的具体实现,根据WEBUI的展示介绍了其具体操作流程,结合插件的开发示例说明了扩展插件的具体方法,并通过功能测试、性能测试和相关调优实验验证了 ETL系统的性能。实验结果表明,本文改进的实时抽取方法可实现秒级的近实时数据同步,并可以根据数据新增的速率对抽取频次进行较好地动态调整。同时,性能测试结果证明Disruptor和多线程并行策略的应用都可以在一定程度上提升ETL系统的数据处理效率和性能,相较于Kettle有着较为明显的优势。
其他文献
PLM(Product Lifecycle Management)系统,即产品生命周期管理系统。该系统能够管理从产品设计、产品生产、销售到停产整个生命周期的所有数据信息。它的最大特点就是能够实现
近年来随着人们对智能计算、物联网与人机交互等技术研究的日益深入,情景感知技术得到了快速发展。情景感知计算的目标在于实现“无时不在而又无处不在”地主动为用户提供恰
随着海量数据的出现,数据挖掘成为目前最有应用价值的领域之一,数据挖掘技术从这些大量的无结构的数据中提取有效的隐含价值的信息,从而提高决策效率。不平衡数据分类是数据
随着信息革命的不断推进,网络成为人们生活中不可或缺的一部分。敏感信息在网络上的安全传输问题关系着个人、企业乃至国家的发展。安全协议以密码算法为基础在互联网络中为
古籍汉字数量多,结构复杂,现有的文字图像检索方法在应用于古籍汉字图像时难以取得理想的结果。为了更好地辅助从事古籍汉字研究的专家学者以更高的效率从事研究工作,本文根
P vs.NP问题一直是理论计算机科学领域中最为复杂的一个问题,已经被列为世界七大数学难题之首。P vs.NP问题已经吸引了世界上许多学者对其研究,但遗憾的是,仍然未获得被广泛
党的十八大以来,习近平总书记高度重视扶贫工作。党的第十八届五中全会从实现全面小康的视角出发,指出我国2020年在现行标准下实现全部贫困人口脱贫。农民工问题是关乎我国的
近年来,随着移动通信技术的不断发展,移动互联网技术已成为通信和互联网领域最值得关注的技术之一,我国的移动互联网通信不断发展,通信技术也在飞速发展。原有的GSM、GPRS技
光纤法布里-珀罗传感器是一种体积小、结构简单、成本低、测量精度高、检测范围大的光纤传感器,易于产品化,已经被广泛用于民用工程、航空航天等领域的应变、温度、压力等物
近年来,由于无标签数据易于获得,对其分析的需求越来越高。无监督聚类算法一直是面向无标签数据的机器学习算法研究和实际应用的热点。多核学习在聚类算法中有重要影响力,针