论文部分内容阅读
生物基因测序的计算任务极大依赖于高性能计算系统,为了充分利用高性能计算系统的资源,保证生物基因测序的计算任务被迅速而又高效地执行,采用合适的调度策略非常重要。本文通过对深圳华大基因研究院(BGI)高性能计算系统的计算日志的分析,研究适用于基因测序计算任务的调度策略。本文首先对华大基因研究院(BGI)的高性能计算系统的运行日志进行分析,提取有效任务,挖掘主机群投递任务规律,分析任务特性及属性。在此基础上进行工作流任务特性分析,并基于任务各属性实现任务聚类,采用合适的概率分布分步骤进行拟合,最终形成完整的工作流任务模型。基于仿真系统Gridsim的实验表明该任务模型产生的任务流分布与实际日志分布基本一致。在任务建模的基础上,针对BGI计算系统的原有调度策略FCFS,本文提出了工作流FCFS调度策略,使之可支持生物基因测序的工作流调度。同时还对简单回填算法(EasyBackfilling)的策略进行分析和改进,提出改进回填算法,以适应工作流回填:(1)引入任务运行时间预测,本文采用基于用户历史数据加权的预测时间方法,通过对用户历史数据和用户的任务请求运行时间来预测任务的运行时间,提高回填准确度。(2)对回填策略进行扩展,设置多优先级来处理工作流任务,使回填策略能够适应工作流调度。(3)对任务选择策略进行改进,增加资源负载和任务类别匹配因子,使任务回填不仅满足基本回填要求,还考虑主机负载的影响,以实现负载均衡。本文基于Gridsim实验框架构建实验平台,进行FCFS的设计和仿真,并扩展和实现工作流FCFS、改进回填算法。仿真结果表明,采用本文提出的改进回填调度算法,不仅能调度工作流任务,而且可以有效达到负载均衡,同时也验证了改进调度策略能够有效地降低任务等待时间,提升调度效率。