论文部分内容阅读
随着计算机技术的高速发展,传统行业逐渐向数字化企业转型,企业数据资源总量逐年呈增长趋势。数据的价值不仅存在其表面,还可以通过处理和分析技术创造出新价值。国家卫健委科研所的多个国家级信息系统产生的数据量大且种类多,因此需要一个大数据混合计算平台,它既能支持多种类型的数据源,又能提供全面的一站式数据计算服务满足医疗科研的各种需求。目前工业界的商业大数据平台的使用费用昂贵且部署维护困难,而且数据保密性较高的国家级企业使用商业软件会产生诸多顾虑。在平台内使用的数据计算技术中,数据连接多用于数据合并、多表联合分析等操作,但是数据倾斜影响计算单元负债均衡一直是阻碍其性能提升的研究瓶颈;卫健委医疗科研的不同业务场景需要不同类型的查询技术方案来满足,这给使用人员带了众多工具复杂的学习门槛,而且每次查询都需要人工判断最合适的引擎。为解决这些缺点和问题,本课题对大数据计算平台及其内部计算技术进行深入研究,本文的主要研究内容如下:1)通过深入研究大规模数据连接过程及其性能影响因素,设计并实现了一种基于Spark的数据连接优化策略,它能高效的处理大规模数据,同时支持等值连接和θ连接,而且对于倾斜严重的数据有很好的性能稳定性;2)研究并实现了一种能同时满足多种查询需求的混合查询引擎(HQE),它的实现是将Spark SQL和Apache Kylin模块拆分,并添加统一查询解析模块和路由策略进行重构;3)依据前两个研究的成果优化平台内相关计算技术,本文在Spark的环境下研究并实现了集多种数据计算于一体的数据混合计算平台,平台主要包括数据管理、数据处理、数据查询和数据工厂四大模块。本课题根据卫健委的实际应用场景进行从功能到技术的需求分析,模板化医疗科研常用具体数据处理操作并加入平台数据处理模块,设计拖拽式前端页面方便科研人员的使用。本文研究并实现的基于Spark的混合数据计算平台提供卫健委医疗科研工作所需的全生命周期的一站式数据服务,包括从数据管理到数据处理、查询、分析,以及计算结果的可视化展示。目前,该平台已经在卫健委科研所部署上线并用于日常科研使用。