论文部分内容阅读
在当今信息爆炸式增长背景下,云计算技术凭借其高性能的计算能力和海量的数据存储能力,得到了各界的广泛关注及应用。然而,随着在云计算环境中开发功能越来越多的强大应用/软件,其所对应的逻辑关系也越来越复杂,还可能受时间、代价、资源、优先级限制等因素的限制,一般的信息系统却难控制这样复杂的应用。为了解决这个难题,在云环境上部署工作流成为了新的研究热点,这样既能充分利用云计算的资源,又能通过工作流来方便灵活地构建、管理、执行及监控整个应用流程。在现有的服务编制型云工作流中,由于所有数据都得经过中央引擎来传输,所以在处理大数据时难以避免会出现带宽瓶颈问题。本文通过分析云工作流框架,针对服务编制型的工作流框架进行了优化。在工作流框架中加入了中间代理层的结构,并对工作流引擎进行了改善,通过代理来管理节点,代理与工作流引擎之间传输的是控制流信息,而底层节点之间则可以直接进行点对点数据传输,大大减少了瓶颈现象的发生。并且,改善的工作流引擎能根据任务的不同类别(类别着色)将任务分配到合适的云底层平台(如:Hadoop)或云基础处理节点来进行处理。由于MapRduce是云计算面向大数据处理的典型并行可扩展性编程模型,先选择从MapReduce工作流着手研究,提出了云环境下的MapReduce工作流调度模型。现有的由MapReduce类型任务组成的工作流,一般是将workflow任务的优先级调度与底层MapReduce调度分离开来的,这样在调度的过程中会产生很多的时间碎片,使得资源使用率不高。本文通过分析workflow、MapReduce的调度算法及HDFS,提出了一种异构环境下的优化调度算法MRWS (MapReduce-enabled Workfow Scheduler)。实验结果表名调度算法MRWS能尽可能充分地利用调度过程中产生的时间碎片,进一步提高了资源利用率及流程执行效率。