论文部分内容阅读
作为数据密集型应用,科学工作流在执行期间会产生大量具有复杂依赖关系的中间数据。对这些中间数据集的管理直接影响到科学工作流的服务质量和执行效率,因而对这些数据集的管理越来越复杂。在云环境利用科学工作流执行计算任务或科学实验任务,需要支付计算及数据存储费用。因此,为了提高科学工作流的执行效率,降低开销,本文针对云环境中科学工作流中间数据存储问题进行了研究。本文的主要工作可以总结为以下几个方面: 1.本文对解决科学工作流中间数据存储问题的CTT-SP算法进行分析。分析发现CTT-SP算法具有时间复杂度高、主路径敏感以及算法不稳定等缺陷。并且,通过设计线性和非线性科学工作流实验验证了对CTT-SP算法的分析。 2.针对CTT-SP算法对主路径敏感以及不稳定等不足,提出了基于关键路径的CTT-SP算法,并设计了三个不同复杂程度的非线性科学工作流进行验证,结果验证了改进算法的有效性和正确性。 3.针对同时有多个云服务商共同提供服务的情形,提出了多云环境下科学工作流部署与中间数据存储策略,并采用五种云服务商资源,设计线性科学工作流与非线性科学工作流进行验证,实验结果表明,我们提出的策略优于已有研究。