论文部分内容阅读
近年来,移动互联网和物联网的迅猛发展,催动全球数据量爆炸式增长。得益于低成本的传感和移动设备的支持,人类社会生产生活各方面产生的感知类数据日益增长。这类数据不仅体积和规模巨大,通常还具有实时到达、持续不间断、到达速度快等特征,常被归类到“流式数据”,使相应的基础服务面临愈加严峻的挑战。然而,现有数据采集工具较为笨重,开发者学习和管理成本高,实时性保证不足。本课题设计实现一套基于分布式环境的并行流式处理的数据采集方案,将Raft算法作为分布式一致性的解决方案应用于流式数据采集系统,改写了 Akka Cluster 框架 Distributed Subscribe Publish 的功能,增设了对广播消息的ACK确认机制,从数据的接入到分发全程流式传输,支持分布式和多层级的部署,作为流式服务基础设施的重要组成部分。从数据采集系统的功能和性能需求出发,制定了系统的总体设计方案,根据系统的功能模块,将系统分为安全验证模块、订阅管理模块、数据接入模块、系统状态呈现模块、数据存储模块和数据分发模块。每个模块独立不关联,并在实际部署时,实现物理逻辑层面的分离,使各个模块之间解耦,提高了系统的灵活性,复用性与容灾能力。最后,对基于流式处理的数据采集系统的各个功能点进行了测试,验证系统实现满足预期的目标,并对流式数据采集系统进行了归纳总结,提出了一些系统需要解决或优化的问题,对未来工作进行了展望。