基于Spark的数据混合计算平台的研究与实现

来源 :北京邮电大学 | 被引量 : 8次 | 上传用户:mn6543210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的高速发展,传统行业逐渐向数字化企业转型,企业数据资源总量逐年呈增长趋势。数据的价值不仅存在其表面,还可以通过处理和分析技术创造出新价值。国家卫健委科研所的多个国家级信息系统产生的数据量大且种类多,因此需要一个大数据混合计算平台,它既能支持多种类型的数据源,又能提供全面的一站式数据计算服务满足医疗科研的各种需求。目前工业界的商业大数据平台的使用费用昂贵且部署维护困难,而且数据保密性较高的国家级企业使用商业软件会产生诸多顾虑。在平台内使用的数据计算技术中,数据连接多用于数据合并、多表联合分析等操作,但是数据倾斜影响计算单元负债均衡一直是阻碍其性能提升的研究瓶颈;卫健委医疗科研的不同业务场景需要不同类型的查询技术方案来满足,这给使用人员带了众多工具复杂的学习门槛,而且每次查询都需要人工判断最合适的引擎。为解决这些缺点和问题,本课题对大数据计算平台及其内部计算技术进行深入研究,本文的主要研究内容如下:1)通过深入研究大规模数据连接过程及其性能影响因素,设计并实现了一种基于Spark的数据连接优化策略,它能高效的处理大规模数据,同时支持等值连接和θ连接,而且对于倾斜严重的数据有很好的性能稳定性;2)研究并实现了一种能同时满足多种查询需求的混合查询引擎(HQE),它的实现是将Spark SQL和Apache Kylin模块拆分,并添加统一查询解析模块和路由策略进行重构;3)依据前两个研究的成果优化平台内相关计算技术,本文在Spark的环境下研究并实现了集多种数据计算于一体的数据混合计算平台,平台主要包括数据管理、数据处理、数据查询和数据工厂四大模块。本课题根据卫健委的实际应用场景进行从功能到技术的需求分析,模板化医疗科研常用具体数据处理操作并加入平台数据处理模块,设计拖拽式前端页面方便科研人员的使用。本文研究并实现的基于Spark的混合数据计算平台提供卫健委医疗科研工作所需的全生命周期的一站式数据服务,包括从数据管理到数据处理、查询、分析,以及计算结果的可视化展示。目前,该平台已经在卫健委科研所部署上线并用于日常科研使用。
其他文献
<正>我国第三个"防灾减灾日"的主题是"防灾减灾从我做起"。减轻灾害损失,避免人身伤害,关键是要调动公众参与防灾减灾的积极性和主动性。因此,构建应急救援社会参与机制是强
以天津地铁三号线水上北路站—吴家窑站盾构区间左线施工为背景,针对盾构施工区间遇到的大坡度并小半径曲线的综合难题,利用施工过程中积累的各种数据,采用受力分析和数理统
民间文化是我们的祖先五千年以来创造的极其丰富和宝贵的文化财富,是我们民族精神情感、个性特征以及凝聚力与亲和力的载体,也是我们发展先进文化的精神资源与民族根基,以及
会议
通过对2001年8月10日和11日天津机场两次局地热雷暴分析,找出热雷暴的特点,利用T-LnP图中S参数(沙氏指数)、850hPa和500hPa温度差、500hPa温度的综合分析得到的S参数和温度的
玄鸟被很多学者认为是秦的图腾,其它关于秦图腾的说法,都不否认玄鸟是秦图腾,或从玄鸟说加以衍生。但图腾在外在的表现形式上首先是一种标记,用于一个氏族区别于其他氏族。在
随着互联网的飞速发展,人们在互联网接触到的网络文件资源越来越丰富,网络文件已经成为人们生活中非常重要的信息交流和信息记录的载体,而如何高效、方便的利用现有的软硬件
农村生活污水已逐渐影响我国农村人民生活环境,国家和陕西省都相继出台相关政策和文件要求处理农村生活污水,而人工湿地由于其具有运行费用低、易操作等优点已成为农村分散型
常规的超声检测系统对换热器管板角焊缝检测时,周向和轴向的扫查过程中都采用了机械扫查方式,其缺点是装置研制困难、检测周期长、成本高、效率低;射线检测无法检测出角焊缝中
本文以任务型学习理论为依据,将任务型教学融入高中英语读写课教学之中,设计出一种以学生自主学习为主导、课堂气氛活跃、教学效率高的英语读写课教学模式。该教学模式将整个