大数据处理技术与系统研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:haohailinbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和信息技术的迅猛发展和普及应用,行业数据爆炸性增长,全球已经进入了“大数据”时代。大数据已引起全球业界、学术界和各国政府的高度关注。大数据已经渗透到各行各业,巨大的数据资源已成为国家和企业的战略资源。大数据给全球带来了重大的发展机遇与挑战。一方面,大规模数据资源蕴涵着巨大的商业价值和社会价值,有效地管理和利用这些数据、挖掘数据的深度价值,对国家治理、社会管理、企业决策和个人生活将带来巨大的影响。另一方面,大数据带来新的发展机遇的同时,也带来很多技术挑战。格式多样、形态复杂、规模庞大的行业大数据给传统的计算技术带来了巨大挑战,传统的信息处理与计算技术已难以有效地应对大数据的处理。因此,需要从计算技术的多个层面出发,采用新的技术方法,才能提供有效的大数据处理技术手段和方法。大规模数据的有效处理面临数据的存储、计算和分析等几个层面上的主要技术困难。首先,动辄达到数百TB级甚至PB级规模的行业大数据,远远超出了传统数据库系统的处理能力。因此,需要研究提供有效的分布式大数据存储管理技术方法与系统。同时,大规模数据处理是一个非常耗时的计算过程,使得传统的单机系统远远无法满足大数据对计算性能的要求。因此,需要研究提供高效的并行化大数据计算技术方法与系统。进一步,大数据的有效分析利用通常涉及到对大规模数据的分析挖掘,而巨大的数据量使得传统的单机机器学习和数据挖掘算法都难以在可接受时间内完成计算,导致算法失效。因此,需要研究提供有效的并行化大数据机器学习与分析挖掘算法和大数据机器学习系统。大数据处理不同于传统的计算与信息处理技术的另一个重要特点是,它是一项涉及计算与信息处理技术众多方面的综合性技术,具有显著的技术综合性和交叉性特征,以任何一个单一和隔离的技术层面和技术方法,都难以有效完成大数据的处理。因此,大数据的有效处理需要将存储、计算与分析层面的技术紧密结合、交叉综合,以形成一种完整的大数据处理技术栈,构成一体化的大数据处理系统平台。基于以上问题背景,本文对大数据处理的多个技术层面进行了深入研究,在分布式存储技术与系统、并行化计算技术与系统、以及大数据并行化机器学习与数据分析算法与系统方面,进行了一系列的研究。具体而言,本文工作包括以下主要技术内容和贡献:(1)大数据分布式存储管理技术与系统研究。主要开展了三方面的研究工作。1)为了提升大数据分布式存储系统的性能,研究实现了分层式大数据存储系统缓存调度策略与性能优化方法,可显著提高分布式存储系统数据访问的性能;2)研究实现了一种通用的分布式文件系统性能测试方法与系统工具,可以用于各种分布式文件系统的性能评估和研究优化,或者用于大数据应用系统设计时选择合适的存储系统和参数优化配置;3)研究设计了分布式层次化大规模RDF语义数据存储技术与管理系统,可有效地存储管理大规模RDF语义数据。(2)主流大数据并行计算系统性能优化研究。主要研究了两方面的工作。1)Hadoop MapReduce作业执行调度优化技术,研究实现了优化的MapReduce作业与任务调度处理方法以及高效的任务执行状态通信方法,实现了一个与标准Hadoop完全兼容的优化版本Hadoop; 2) Spark RDD数据堆外(Off Heap)内存存储机制,针对Spark在处理大规模数据性能受到JVM垃圾回收严重影响的问题,研究实现了一种基于分布式堆外内存存储的Spark RDD数据存储机制。(3)大数据并行化机器学习与数据分析方法与算法研究。主要研究实现了多个应用领域的复杂大数据机器学习与数据分析并行化算法,包括:1)针对数据挖掘领域中大规模神经网络训练性能低下的问题,研究实现了一个定制式大规模神经网络训练并行化算法与计算平台cNeural;2)针对在搜索引擎和信息检索领域重要的排序学习(Learning To Rank)算法GBRT (Gradient Boosting Regression Tree)训练耗时较长的问题,研究提出了基于K-Means直方图近似算法优化的加速方法及其并行化算法;3)针对语义网推理领域中RDFS和OWL推理规则集在大规模语义数据上推理耗时过长的问题,研究实现了基于Spark并行计算平台的高效并行化推理方法与系统。(4)统一大数据机器学习与数据分析编程模型与系统平台研究。针对大数据分析处理时面临的系统平台可编程性和易用性问题、以及大数据分析处理时的计算性能问题,研究提出了一种基于矩阵模型的统一大数据机器学习与数据分析编程模型与框架,并进一步设计实现了一个跨平台统一大数据机器学习与数据分析系统平台Octopus(大章鱼),该系统底层可与Hadoop、Spark、MPI、Flink等主流大数据平台集成,实现底层平台对上层数据分析程序员的透明性,而上层可使用R/Python编程语言与编程开发环境,基于矩阵模型,方便高效地完成大数据分析算法和应用的编程和计算。通过对上述大数据分布式存储、并行化计算、以及大数据分析层面关键技术方法与系统的研究,本文取得了一系列研究工作成果,这些成果可作为重要支撑技术与系统,有效运用于构建一体化的大数据处理系统平台。本文部分成果已经被成功运用于工业界的开源或者商业化大数据处理系统或应用产品中。
其他文献
随着交通建设不断深入,越来越多的隧道将修建在高烈度地震区。我国岩溶地质分布广泛,存在着大量溶洞,部分隧道难免会穿越这些溶洞,其动力响应规律值得探究。本论文采用数值模
综述了单味中草药以及中草药有效成分(包括皂甙、生物碱、萜类、酚酸和脂肪酸类及其他成分)体外杀精子抗生育作用的国内外研究进展。
经济要发展,电力必须提前建设。这表明电力与我们经济发展、社会稳定、人民生活和谐紧紧联系在一起,而且电力的重要性也愈发重要。随着内蒙古自治区西部综合经济实力的迅猛发
本文探讨了毕业创作的缘起、过程及创作时和创作完成后的感悟。创作以1942年发生在河南连续三年的天灾人祸为背景,在对这段历史进行探索的过程中,我逐渐形成了对历史精神的认
随着海洋经济的快速发展,对海洋环境的破坏日益严重,赤潮、溢油作为典型的海洋灾害受到关注,因此世界各国都在大力发展海洋光电监测技术。光学探测作为一种海洋目标探测的主要技术手段,具有信息维度丰富,分辨能力强,效率高的优势,受到人们的广泛关注,但海洋探测存在海雾、耀斑、复杂光照等影响严重的难题,严重影响了探测效果。传统的海洋光电探测主要采用可见光强度探测,微光探测等技术,无法克服海洋环境影响。因此,亟需
装甲部队的创建是军队建设史上的重大军事创新成果,它引发了第二次世界大战中的陆战变革,并成为机械化军事革命的重要组成部分。由于建军指导思想的巨大差异,两次世界大战之
从航运企业的危机潜在诱发因素入手,详细阐述危机诱发因素的信息收集要求以及辨识方法,建立一套完整的危机预警指标体系,并借助多指标可拓综合评价法构建航运企业危机预警的
鉴于特别权力关系理论和“官本位”思想影响,我国公务员申诉制度受理范围过窄,本文通过对比公务员权利规定,并结合现实问题,试图论证公务员工作条件、任职和升职、培训、考核
中央新疆工作会议提出了新形势下推进新疆跨越式发展和长治久安的目标任务,并明确提出到2015年新疆人均生产总值要达到全国平均水平,城乡居民收入和人均基本公共服务能力达到
采用在电熔刚玉冶炼过程中引入H3BO3剂,通过H3BO3与Na2O生成挥发性化合物Na2B2O4,降低电熔刚玉中的钠离子含量,获得了高纯度电熔刚玉型环氧树脂浇注用氧化铝填料。分析了熔块