论文部分内容阅读
随着计算机技术的飞速发展,计算机硬件的存储能力与计算能力得到了大幅度提高,商家能够以更低的成本保存用户数据,并进行数据挖掘与数据分析,从中获取价值。由此,我们进入了大数据时代。在大数据时代,面对海量数据,传统数据库显得力不从心,如何高效率地存储海量用户数据并对其进行分析计算成为了难题。在这种场景下,大数据处理支撑平台应运而生,采取分而治之的策略,对海量数据进行分布式存储和分布式计算。在大数据处理支撑平台中,调度子系统承担着十分重要的功能,负责集群整体计算任务的调度和执行。本课题的研究目的在于结合浙江移动手机阅读基地实际项目需求,通过设计并实现大数据处理支撑平台调度子系统,提升平台调度能力的智能化,并提高整体任务的调度效率。在实际项目中经过长期调研发现,大数据处理支撑平台存在以下几方面的问题:一是调度系统Web界面只能进行工作流运行状态的监控,不能进行工作流的配置;二是在调度任务数量繁多并且依赖关系复杂的情况下,无论是编写配置文件,还是使用图形化界面进行调度配置,都将成为十分困难的任务;此外,为了减少对集群资源的占用,更快地完成计算任务,还需要对调度效率进行优化。针对上述这些问题,本课题设计并实现了图形化调度配置子系统,自动化调度配置子系统和调度效率优化子系统,分别完成了如下功能:提供图形化界面供用户进行工作流的配置,能够由图形化配置结果生成配置;在用户提供基本调度信息和配置文件模板的前提下,能够由系统自动为用户生成配置;对系统整体调度效率进行优化,缩短整体调度任务响应时间。论文组织结构如下:第一章是绪论部分,简要介绍了本课题的研究背景,研究内容,研究现状以及研究意义。第二章介绍了调度子系统的需求分析和总体设计。第三章重点阐述了图形化调度配置子系统的详细设计与实现方案。第四章重点阐述了自动化调度配置子系统的详细设计与实现方案。第五章重点阐述了调度效率优化子系统的详细设计与实现方案。第六章针对本课题的研究和工作成果进行了总结,并提出了对大数据处理支撑平台未来发展方向的展望。