论文部分内容阅读
信息化技术在各行各业的普及,促使大规模数据产生于不同领域,给大数据处理带来了全新的技术挑战。高频证券交易数据是典型的“流式大数据”,具有数据规模大、结构复杂、流动速度快等特点。如何利用有限的系统资源,构建稳定、可靠、高效的数据处理框架,在高频推送的流式数据周期内及时完成数据响应,是证券数据价值挖掘场景亟待解决的问题。本文在分析研究大数据流式处理模型的基础上,结合多种大数据处理技术构建了一个面向高频证券大数据流式处理框架,对其中涉及关键技术进行研究和改进,并应用于证券数据实时分析场景,实现了高效的数据流处理、管理与查询。全文以构建契合高频证券大数据特征的流式数据处理框架为主线,并深入研究该框架中涉及的关键技术,论文主要完成工作如下:(1)分析设计面向高频证券大数据的流式处理框架。以Storm流式处理框架和Redis内存数据库为技术原型,将二者进行结合并经过改进,设计了面向高频证券大数据的流式处理框架以及流式数据分层处理模型。(2)针对该框架中Storm组件的缺陷和不足,分别从物理、逻辑和应用层面对Storm进行优化改进,以增强其面对高频流式大数据的实时处理能力。(3)设计实现符合证券大数据高效存取的基于Redis的共享内存中心。通过对Redis内存数据库的改进,既保留数据存储的灵活性需求和可扩展性优势,又考虑数据I/O的高效性,弥补了流式处理框架中Storm组件不能保存状态数据的缺陷,为上层应用的深度挖掘提供高效I/O保障。(4)本文设计的框架在高频证券实时分析场景中的应用。完成了面向高频证券大数据的流式处理框架的应用,为后续证券交易策略开发和实现提供框架支撑。