【摘 要】
:
云计算技术是一种全新的计算模式,通过互联网实现随时随地、按需、快速获取服务(计算设施服务、存储设施服务、应用程序服务等)。同时通过云计算,可以将任务分布在由大量服务
论文部分内容阅读
云计算技术是一种全新的计算模式,通过互联网实现随时随地、按需、快速获取服务(计算设施服务、存储设施服务、应用程序服务等)。同时通过云计算,可以将任务分布在由大量服务器组成的集群上。目前,云计算已经在科学计算、虚拟环境、网络搜索、生物信息和能源等领域有了相关的应用和探索。随着互联网的快速发展,网络传输数据量和数据中心存储数据量与之前比较都呈现出几何倍数的增长。传统的存储方式价格昂贵,扩展性差,设计复杂,需要的专业维护人士也不能跟上数据快速增长的需求。MapReduce致力于解决大规模数据处理的问题,利用局部性原理将整个问题分而治之,已经被现阶段的许多行业广泛应用。但是它也存在一定的问题,当输入的数据倾斜度比较大时,会造成键值对的分布不均匀。增加Map任务与Reduce任务之间的中间数据的网络传输量,占用大量带宽,使得有的任务执行时间明显大于其它的,因此作业的总执行时间增加了,降低了系统性能。本文的出发点是在云端大数据集群上输入数据存在倾斜时,如何利用云环境的优势,采用蚁群算法,有效的对虚拟机进行迁移,使得中间数据的网络传输量达到最小。主要工作为:(1)改进蓄水池抽样算法,并行的蓄水池抽样对MapReduce中间数据进行抽样,估算键值出现的次数。该抽样由一个独立的MapReduce应用程序完成,并在后文中给出理论证明,水池抽样算法能够有效的估算中间数据的键值分布。(2)根据抽样统计出来的所有中间数据键值的频次分布结果,通过蚁群算法以虚拟机之间数据传输量最小为优化目标,得出最佳虚拟机与物理机对应关系,最后对虚拟机进行迁移,将数据传输大且距离较远的虚拟机迁移到同一台物理机上。(3)搭建OpenStack和Hadoop大数据平台进行试验。实验中,在输入数据量大,倾斜度高时,与随机模式的迁移和不迁移策略相比根据抽样数据分布的蚁群算法迁移有较大的优化,即跨机流量传输越小,数据本地化程度越大,执行时间越短。
其他文献
组播传输可以提高内容中心网络的频谱资源效率且降低能耗,但是传统组播信道的容量只与信道增益最小的那条链路有关,使其传输速率受到很大的限制,而又由于内容中心网络的用户
普惠金融是我国全面建成小康社会的重要一环。J行承接社会责任,回归银行服务实体经济的本源,立足于机会平等要求和商业可持续原则,对小微企业、“三农”、城镇低收入人群和残疾人、老年人等特殊群体提供金融服务,也立志于通过业务结构调整和业务转型来促进金融业的可持续发展。J行在探索普惠金融的过程中,发现借贷双方严重的信息不对称、抵押物缺乏、信贷业务特性风险、非经营用途借贷等方面问题依然是克服金融排斥的难点和阻
具有可编程、高速和高可靠性等优点的FPGA被广泛应用于无线通讯、消费电子、高性能运算等领域。近年来,5G、人工智能、物联网、大数据等技术领域快速兴起和发展,对大吞吐量、
移动设备在当今移动互联网时代的作用变得越来越重要,除了需要满足用户最基本的功能需求外,还需要具备更高的性能和更低的功耗。Google公司的Android系统因其代码开源、支持
近年来心血管疾病发病率居高不下,而且死亡率极高,严重威胁着人类健康。心脏病是心血管疾病中最为常见的疾病,对其敏感准确的检测诊断具备重要的临床意义。本文针对一种常见
在社会经济转型发展期间,公共就业服务面临越来越大的压力,就业难的问题成为政府公共服务体系的难点,如何利用云计算、大数据等信息化技术手段,在“互联网+”的浪潮中实现政
智能产品不断更迭换代致使人们对存储器的性能要求也越来越高,传统的存储器已经不能满足人们的需求。为此,各种新型存储器便应运而生。其中,阻变存储器因其结构简单、擦写速
背景:直接抗病毒药物(Direct-acting antiviral drugs,DAAs)有利于治疗丙型肝炎病毒(Hepatitis C Virus,HCV)感染。目前研究[2.3.6]显示,在基因3型慢性丙肝病毒感染患者中,索菲布
随着我国房地产市场近30年来的发展,办公楼和商业营业地产为代表的经营性物业存量巨大。通过银行等金融机构进行经营性物业抵押融资,或通过房地产信托基金(REITs)等形式采取
目的:血清乙型肝炎e抗原(HBeAg)水平和肝纤维化程度的关系仍不清楚。因此,本研究旨在调查定量的HBeAg水平与肝纤维化之间的关系,来评估慢性乙型肝炎患者肝纤维化的程度。方法