一种基于NoSQL的并行数据增量处理机制研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:michaelwf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算为数据处理工作带来了新的机遇与挑战。传统的关系型数据库在大数据的需求面前显得力不从心,而分布式非关系型数据库由于其高可靠性、高可用性的特性,能够满足大数据带来的高并发、高读写需求。然而,分布式非关系型数据库优越的性能是以牺牲SQL数据处理能力为代价的。因此,提高非关系型数据库的数据处理能力就成为一个重要的研究课题。非关系型数据库数据处理能力可以从离线数据处理和在线数据处理两个方面进行提高。在离线数据处理方面,将开源MapReduce数据处理系统Hadoop与非关系型数据库相结合,通过为非关系型数据库实现Hadoop作业配置模块、数据分片模块、数据输入和输出模块,Hadoop能直接对存储在非关系型数据库中的海量数据进行处理,既保留了非关系型数据库高可靠、高可用的特性,又增强了系统对数据的离线批处理能力。而在在线数据处理方面,首先基于非关系型数据库内置的分布式单行事务功能,通过一系列存储控制过程实现分布式多行事务算法。其次通过在数据库表中增加冗余列和为数据库系统调用注册钩子函数的方法,在非关系型数据库中实现类似触发器的消息通知机制。根据多行事务算法和消息通知机制,针对具体应用场景,在非关系型数据库中实现增量数据处理,以满足在线数据处理的需求。针对包含4,200,000条结构化数据记录的数据集进行了测试。实验证明,把非关系型数据库与Hadoop相结合之后,利用Hadoop的MapReduce机制进行数据插入,数据插入的速率提高了300%。在数据处理能力方面,对测试数据集做Count,Sort,Group操作,相比于Pig系统,数据处理速度提高了30%~50%。
其他文献
随着互联网的普及和发展,人们获取信息的方式也在不断变化。不同的信息获取方式对于信息服务的技术也有不同的要求。一个总的趋势是逐渐由用户主动“拉取”信息转变成信息服务
传统的缓存策略主要基于内存缓存,采用读写速度作为最终目标,随着固态硬盘SSD的出现,传统的缓存设计思路不再适用,由于固态硬盘存储介质Flash的读写特性以及擦写次数限制,如果将传
近年来,各种以流媒体技术为核心的产业,如视频点播、网络电视、视频分享网站等飞速发展,而流媒体视频的版权保护问题也日益严重。视频水印技术是一种有效的版权保护手段。但
无线传感器网络是由大量传感器节点自组织形成的网络,主要用来感知并收集监测区域的信息。由于信息的完整性会直接影响用户决策的正确性,且传感器节点的电源能量、通信能力和计
合成孔径雷达SAR是遥感技术领域的重要进展,用来获取地球表面的高分辨图像。其对国民经济的各个方面意义重大。深度学习是近年来提出的一种类脑学习的机器学习理论,深度学习理
机房是承载学校信息化建设和网络交换设备的重要基础设施,其安全性和运行状态关系到校园网络安全和学校信息化的正常运行,因此对机房环境进行实时远程监控以及建立报警和预警机
一直以来,图作为处理大规模数据的典型数据模型得到了广泛关注,比如蛋白质交互(Protein-ProteinInteraction,PPI)网络、交通网络、社交网络、RDF数据等都可以抽象为图。随着
煤炭资源是我国重要的基础能源,在国民经济的发展中具有重要的作用,但在煤炭开采的过程中,矿井事故频繁发生,不仅直接危害劳动者的生命安全、造成重大的经济损失,同时也造成了恶劣
无线自组织网络是终端节点自发组织形成的网络,具有分布式运行、拓扑动态变化等特点。移动自组织网络以及无线传感器网络都是被广泛研究的无线自组织网络。由于部署方式灵活,无
目前,重大经济领域内草拟后待颁布政策很多,如何保证这些政策的一致性,作为国民经济和社会发展中迫切需要解决的关键问题,受到了越来越多的关注。在研究政策的一致性时,需要对政策