基于Hadoop的分布式系统研究与应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:fengxun1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据的概念,几乎是近年来突然火了起来。随着计算机技术的飞速发展,人们获取信息的途径越来越多,数据量也呈爆炸性发展。根据美国互联网数据中心的报告,Internet的数据每年将增长50%,也就是说现在世界上的电子数据,有九成都是近年来才产生的。面对海量数据,如何去合理利用成为了一门十分热门而且实际的研究方向。而所要研究的这些数据,就称为大数据(big data),他的常见特点为3V:Volume(巨量), Velocity(实时性), Variety(多样性)。这些数据数目巨大,结构复杂,类型也没有统一的规范,这与我们常见的数据库中的信息有着很大的不同。大数据初看可能找不到什么规律,甚至可以说是杂乱无章。以目前常用的数据处理软件对大数据进行常规处理所需要的时间过长,不利于企业将结果用于决策判断。大数据虽然有着巨大和杂乱的特点,但是将这些数据进行专业处理后,却能获得更深层次的信息,具有更强的决策力与洞察力。就如同某地区几年来的气象信息可以经过分析获得该地基准预报方式,网上购物门店对客户购买数据分析能够判断自己更应该把产品投向哪些区域的市场等等。那么如何进行快速处理以满足企业的需求就是大数据的重点研究对象,可以说大数据数据分析行业的前沿技术。其中分布式计算就是一个很有前景的处理方式。分布式计算,顾名思义,主要研究的是将单个的计算机组成网络神经后进行分散式的计算,最后将节点神经的结果合并后得到数据的科学。分布计算的概念要早于大数据概念的产生。它最重要的目标是共享稀有资源与负载平衡。与单机计算不同,分布式计算在单个设备上的成本降低了很多。以往的科学计算,必须依托小型机以上的设备,通过单个计算机个体的性能来完成巨量的运算。分布式计算系统不仅降低了系统的成本,还有着别的系统无法比拟的两个特点:负载均衡与共享资源。本文以热门的开源分布式系统Hadoop为实现目标。Hadoop既满足了分布式计算的特点,又因其是以java实现的基础便于开发与低成本投入,十分适合企业在合理成本下的分布式计算需求。我们就分布式计算在金融行业中的实际应用进行试验,部署了hadoop集群,从实践的角度以数据论证了分布式计算可以提供处理大数据所需要的计算能力,同时很大程度上降低了企业的运行成本,是未来企业发展的大势所趋。
其他文献
<正> 在交流电力牵引区段,站内轨道电路一般采用25Hz相敏轨道电路。在电气化改造工程设计过程中,有一个新、旧设备的结合过程。笔者在进行哈尔滨——大连铁路电气化改造工程
目的观察p16、cyclin D1在乳腺癌组织中的表达水平,并探讨其临床意义。方法采用免疫组织化学法对2010年2月至2013年4月武汉大学人民医院肿瘤中心手术切除的54例乳腺癌组织和
宫颈癌是妇女中常见的恶性肿瘤,生殖道的病原体感染与宫颈癌的发生、发展密切相关。高危型人乳头状瘤病毒的持续感染成为宫颈癌发生的最危险因素,合并感染的病原体在宫颈癌发
踝关节骨性关节炎在临床上是很常见的疾病,近年来,其发病率越来越高。针对患者的不同情况,在治疗上存在很大差异。临床常用各种内、外固定方式各有特点。踝关节融合术依然是
山东广播电视台齐鲁频道一直走在中国省级地面频道发展的前沿,在山东省网内收视率稳居第一位,这很大程度上归功于齐鲁频道一直以来把受众需求放在重要位置的办台理念,齐鲁台
<正> 我国十六世纪伟大的医药学家李时珍,生前虽未给我们留下医学伦理学的专著,但他所撰"东方医药学巨典"——《本草纲目》涉及的医德思想范围之广,医德境界之高,也是祖国医
辽东地区元古界硼矿床属于沉积变质硼矿。根据现代盐湖沉积 ,认为硼矿物沉积通常为硼砂 ,然后在区域变质作用过程中 ,硼砂矿物转变为硼镁矿物或硼铁矿等硼酸盐矿物 ,但辽东硼
目的探讨抗精神病药物在老年精神病患者中的合理应用情况。方法回顾性分析2010年1月至2012年12月吴江市第一人民医院收治的老年精神病患者的电子处方,统计抗焦虑及抗抑郁药物
急性早幼粒细胞白血病(APL)是急性髓细胞白血病中的一种特殊类型,99%的APL有染色体t(15;17)(q22;q12)易位和早幼粒白血病基因与维甲酸受体基因融合基因的形成。近年来,由于亚
分泌型免疫球蛋白A(SIg A)是由J链连接成的多聚体Ig A与分泌片段结合后形成的复合物,主要存在于乳汁、胃肠液、呼吸道分泌液等外分泌液中,是黏膜免疫的主要抗体,它能有效地阻