【摘 要】
:
时至今日,大数据(BigData)时代已经来临,尤其在电信、金融、互联网行业,数据量的增长已达TB甚至PB级。如何对大数据进行统计分析是我们面临的巨大挑战。云计算的出现和发展,
论文部分内容阅读
时至今日,大数据(BigData)时代已经来临,尤其在电信、金融、互联网行业,数据量的增长已达TB甚至PB级。如何对大数据进行统计分析是我们面临的巨大挑战。云计算的出现和发展,为数据统计分析提出了新的方式,其安全可靠的海量数据存储能力,简单易行的并行计算能力,廉价普通的设备要求,具有节约成本,提高效率的优点,成为解决数据统计分析问题的有效方式。 数据统计分析是我们日常生活工作中非常普遍的需求,例如求解数据集中数据项的基数、求解数据集中最频繁数据项集、求解最频繁数据项集的频度等等。随着云计算的成熟,越来越多的电信和互联网公司将数据的存储和统计分析移植到云计算平台下。如何在云计算的环境下进行数据的统计和分析是一个具有现实意义的问题。面对海量的数据,分布式的平台,传统的数据统计分析方法已无法有效的解决我们的数据统计分析需求,这也就客观要求我们能够采用不同于传统的统计分析算法并且能够并行化,部署到云计算平台上运行。如果能够采用有效的数据统计分析算法移植到云计算平台上,并且满足我们的要求,问题便迎刃而解。 本文从实际需求出发,综合考虑现实要求,提出了在云计算平台框架Hadoop下,采用Map Reduce并行编程模式实现数据统计分析算法的并行化,并通过实验验证其可行性和有效性。本文选择基数求解和TOPK两个常用的数据统计分析问题作为我们研究的对象,提出了基于概率的算法,通过MapReduce实现算法的并行化,借助于平台Hadoop解决这两个典型的数据统计分析问题。研究证明了在云计算平台下,采用概率算法并行化,在分布式环境中运行能够取得良好的效果,成功的提高了统计分析的速度,较低了内存消耗,减轻了分布式环境中的网络负载。研究证明了方案的可行性。
其他文献
近年来,随着车联网(VANETs, Vehicular Ad hoc Networks)理论的深入研究及其在智能交通、安全、娱乐等方面的应用,车联网在提升道路交通管理水平,进行主动事故告警、事故隐患
随着物联网应用的推广,出现了更多的低功耗高速率实时通信技术需求。IEEE802.15.4是当前低功耗通信的标准,但不适用于高速实时传输。它不能解决多于七个设备需要实时服务、时延
随着物联网概念提出和其相关技术的应用以及近年来可信计算技术的发展和进步,可信计算将是未来物联网以及信息平台得以进行安全通信和信息交换的基础。国际可信计算组织TCG (
当前,大部分面向终端用户的软件采用的是图形用户界面(Graphic User Interface, GUI)技术。随着软件工程体系的不断规范和标准化,人们对软件质量的要求也越来越高。软件测试
肿瘤细胞图像作为一种常用的医学图像和自然图像,具有细胞结构复杂、图像冗余度高和图像高阶统计特性服从非高斯分布的特点。不少研究学者通过提取图像的几何特征来实现肿瘤
无线传感器网络(Wireless Sensor Networks,WSNs)主要由大量微型传感器节点构成,具备感知、采集并传输信息的功能。由于节点自身携带电池能量有限,因此,实现节点能耗均衡、延长网络
麦长管蚜是我国大多数麦区的主要害虫,对小麦的危害严重。准确预测麦长管蚜的发生量,是进行正确防治决策和减少农药用量的前提。目前麦蚜的预测多为发生级别而非发生量的预测
随着云计算的迅速发展,越来越多的数据被存放在云服务器中。云存储作为一种新型的存储服务,所具有的高可扩展性、高可靠性、价格低廉和可随时随地接入访问的特点,为海量数据
随着网络的迅速发展,计算能力与存储能力的不断提高,数据集的规模也有了飞速的增长。为了从大量数据中获取有价值的信息,需要对采集到的数据进行数据挖掘。而特征选择又是数据挖
随着人机交互的发展,形象、生动、直观的手势动作被当作人机自然的交流手段,使用户摆脱了键盘、鼠标等传统输入方式的束缚,在人机交互领域中具有不可估量的意义。从手势的输