基于虚拟机动态迁移的主动容错系统设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:nive123nive
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算的快速发展,社会各个领域对计算资源的需求不断增加,高性能计算集群的应用领域越发广泛,包括银行系统,购物系统,天气预报系统,科学计算系统等在内的许多系统都需要大量的计算资源。为了满足这样的需求计算集群的规模也在不断扩大。在如此庞大的计算集群中,即使节点故障率很低,也难免有很多节点发生故障。节点发生故障有很多原因,归纳起来主要有硬件,软件,环境,网络,人为等多种因素,而尤以硬件出现故障的频率最高[31]。为了减少硬件故障对系统的影响,本文对主动容错技术进行了研究。主要研究内容有以下三点:  1.为用于科学计算的大规模集群设计并实现了一套主动容错系统,以减小硬件失效对集群的影响。该系统由三个模块组成,即数据收集模块,错误预测模块和容错迁移模块。数据收集模块负责定时从系统中收集集群的硬件资源数据和系统资源数据,并将数据发送给错误预测模块进行错误预测。错误预测模块负责收数据收集模块收集的集群数据,并使用阈值算法或阈值梯度算法对数据进行分析并进行错误预测,将错误预测结果发送给错误迁移模块进行任务迁移。错误迁移模块接收各个计算节点发送的问题主机信息并从调度器获得调度结果将问题主机上的任务在主机宕机前迁移到健康主机上。  2.提出了一种适用于主动容错的错误预测算法。考虑到现有算法缺少考虑数据变化趋势的现状,将数据变化率这个因素引入错误预测,从而提出了阈值梯度预测算法。该算法不仅参考测量数值本身,还关注数据变化趋势,增加了故障预测的准确性。  3.提出了一种选择预测算法的方法。该方法依据所检测硬件数据本身特点,即由该硬件致使整个计算机系统处于的危险状态的程度。通过描述某个硬件危险系数随着硬件数据变化的规律,依照不同的规律选择与之相符的算法,能够使系统在对硬件数据进行预测时可以更加灵活和有效的选择预测算法。
其他文献
在信息技术飞速发展的今天,互联网技术与移动互联网技术日益更新并不断推陈出新,因而对各个平台间数据交换与数据解析提出了新的需求和高标准,此时,JSON技术凭借其良好的性能
动态电子轨道衡是一种自动对铁路货车实行不停车、不摘钩连续称重的大型工业计量设备。动态电子轨道衡作为一种对装载大宗散装货物的列车在行进中进行自动称量的新型现代化计
本文深入分析了多协议标签交换技术以及虚拟专用网的基本工作原理,给出了两者的发展趋势,探讨了将两者结合在一起的可能性以及需关注的问题。针对MPLSVPN网络的构建,阐明了所采
通航问题是三峡工程实施关键问题之一,通过设计论证:在三峡大坝建设大型双线五级连续船闸。三峡船闸是世界上规模最大、最复杂的船闸,由于上下游水位落差大,船闸必须适应多级数、
在现代科技的发展过程中,随着处理器技术的发展和通信、控制、消费类电子产品等嵌入式应用的发展,嵌入式系统逐渐深入到人们生活的方方面面。各类嵌入式系统产品之间往往通过某
Kukich从智能处理技术的角度将英文的文本错误分成两大类:孤立词错误(isolated-worderror)和上下文依赖词错误(context-dependentworderror)。孤立词错误是一些拼写上的错误;上
随着Internet应用的发展,特别是电子投票、网络银行和电子商务等应用领域的日益广泛,网络通信不再局限于实现传统密码学所考虑的数据完整性、认证性、秘密性和不可否认性等安
本文为提高船载光电取证系统的自动化性能,将已往应用于军事和航天科技领域的图像自动跟踪技术引入民用领域。这项技术有两个主要方面,相关匹配算法和伺服控制算法。重点探讨减
家庭机器人将成为未来数字化家庭中的重要一员,它不但能自主地完成打扫房间、照顾老人等家务,而且还能看家护院、教育与娱乐孩子、甚至还有管理其它家电产品等功能。近几年来,国
访问控制作为国际化标准组织定义的五项标准安全服务之一,是实现信息系统安全的一项重要机制,访问控制机制在很多企事业系统内部安全需求方面显示了极大的优势。然而,传统的