论文部分内容阅读
大数据的概念,几乎是近年来突然火了起来。随着计算机技术的飞速发展,人们获取信息的途径越来越多,数据量也呈爆炸性发展。根据美国互联网数据中心的报告,Internet的数据每年将增长50%,也就是说现在世界上的电子数据,有九成都是近年来才产生的。面对海量数据,如何去合理利用成为了一门十分热门而且实际的研究方向。而所要研究的这些数据,就称为大数据(big data),他的常见特点为3V:Volume(巨量), Velocity(实时性), Variety(多样性)。这些数据数目巨大,结构复杂,类型也没有统一的规范,这与我们常见的数据库中的信息有着很大的不同。大数据初看可能找不到什么规律,甚至可以说是杂乱无章。以目前常用的数据处理软件对大数据进行常规处理所需要的时间过长,不利于企业将结果用于决策判断。大数据虽然有着巨大和杂乱的特点,但是将这些数据进行专业处理后,却能获得更深层次的信息,具有更强的决策力与洞察力。就如同某地区几年来的气象信息可以经过分析获得该地基准预报方式,网上购物门店对客户购买数据分析能够判断自己更应该把产品投向哪些区域的市场等等。那么如何进行快速处理以满足企业的需求就是大数据的重点研究对象,可以说大数据数据分析行业的前沿技术。其中分布式计算就是一个很有前景的处理方式。分布式计算,顾名思义,主要研究的是将单个的计算机组成网络神经后进行分散式的计算,最后将节点神经的结果合并后得到数据的科学。分布计算的概念要早于大数据概念的产生。它最重要的目标是共享稀有资源与负载平衡。与单机计算不同,分布式计算在单个设备上的成本降低了很多。以往的科学计算,必须依托小型机以上的设备,通过单个计算机个体的性能来完成巨量的运算。分布式计算系统不仅降低了系统的成本,还有着别的系统无法比拟的两个特点:负载均衡与共享资源。本文以热门的开源分布式系统Hadoop为实现目标。Hadoop既满足了分布式计算的特点,又因其是以java实现的基础便于开发与低成本投入,十分适合企业在合理成本下的分布式计算需求。我们就分布式计算在金融行业中的实际应用进行试验,部署了hadoop集群,从实践的角度以数据论证了分布式计算可以提供处理大数据所需要的计算能力,同时很大程度上降低了企业的运行成本,是未来企业发展的大势所趋。