论文部分内容阅读
分布式计算发展至今,形成了一些有重大影响力的大规模分布式计算模型。其中,网格计算把地理分散的、分属不同管理域的计算资源聚合成具有强大计算能力的虚拟计算机。桌面网格是一类特殊的网格,它的目标资源是桌面计算资源。志愿计算属于桌面网格的一个分支。现有的志愿计算项目已经获得了与超级计算机相当的计算能力。网络及桌面计算机的性能提升为桌面网格的进一步发展提供了坚实的基础。桌面网格中的计算资源主要是非专用资源,资源的可用性由资源状态及资源贡献策略共同决定。相对于由专用资源组成的计算系统而言,桌面网格中资源的可用区间长度要小的多。为保证任务的顺利执行以及资源的有效利用,桌面网格中常常采用一定的容错措施。桌面网格中常用的容错措施有任务复制及检查点措施。容错措施中存在对容错措施的效果有重大影响的要素,如任务副本的数目,检查点策略等。为了提高桌面网格中的资源利用效率,本文在国家863项目及国家自然科学基金的资金支持下,对相关容错措施进行了系统地研究。主要工作及创新点如下:第一,提出一个基于随机样本的任务时限延误概率的估计方法。桌面网格中,采用任务复制措施来满足任务的时限要求。按照任务时限延误概率动态复制任务可以在满足任务时限要求的同时获得高的资源利用效率。因此,需要估计任务的时限延误概率。在假设任务执行中资源失效导致的可用时间损失可以忽略的条件下,任务是否延误由执行任务的主机在时限之前的可用时间决定。通过对可用性跟踪数据的实验分析,我们找到一种随机取样方法,该方法生成的样本能很好地反映主机区间可用时间的概率分布情况。我们基于该取样方法生成样本,采用无参估计的方法估计任务的时限延误概率。仿真实验表明,该估计方法拥有高的预测准确度,且在动态复制措施中表现优于现有的方法。第二,提出一个近似求解一般失效分布情况下最优检查点策略的算法。桌面网格中,主机服从多种不同的失效分布。因此,其中的检查点策略需要考虑一般的失效分布情况。我们从理论上证明了,一般失效分布情况下要使资源利用效率最大化,相邻两个检查点间隔之间必须满足特定的关系。基于该性质和贪心思想,我们给出了近似求解最优检查点策略的算法。该算法在失效分布为指数分布时等价于等间隔策略,在失效分布为其它分布时优于等间隔策略。第三,提出一个根据失效间隔样本近似求解最优检查点策略的算法。对桌面网格中的大多数主机而言,难以获得失效分布函数。这种情况下无法采用基于失效分布函数的检查点策略。为此,我们提出一个基于失效间隔样本的算法。该算法采用了检查点频率的思想,拥有多项式时间的计算复杂性。在可用性跟踪数据驱动的仿真实验中,该算法表现优于等间隔策略。上述研究工作只涉及到桌面网格中部分应用场景下的容错措施。在以上工作的基础上,下一步工作将考虑桌面网格中的其它场景下的容错措施。