HBase多列查询方法研究与优化

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:liujm1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代的飞速发展产生了大量的信息数据,随着商业模式的转变,人们不是简单地将数据保存下来,而是越来越多的认识到庞大的数据中蕴含着更大的商业价值,对数据处理的方式也发生了变化。在大数据时代,传统的关系型数据库已不能满足人们对数据处理的需求,而非关系型数据库以其高吞吐量和高扩展性成为了处理大数据的主流数据库。然而非关系型数据库发展时间短、技术不完善,其功能还有一定的欠缺。HBase作为主流的非关系型数据库,得到了广泛的应用,然而HBase目前只支持基于RowKey的查询方式,对于非RowKey的查询,只能使用全表scan的方式,其查询性能不能满足需求。  本论文的主要工作集中在分析如何提高HBase非RowKey的查询性能,并设计一种提高HBase非RowKey查询性能的方法。使用索引是数据库常用的提高查询性能的主要方法。为此,本文首先对现有的分布式索引方法进行研究分析。本文将现有的分布式索引方法分为二级索引、基于线性化技术的索引和双层索引这三类,并分别对这三类索引方法的典型技术进行研究,分析其基本思想,总结了它们的优缺点及应用场景。根据对典型索引技术的优缺点及应用场景的分析总结,本文设计了一种基于预分区的HBase二级索引方法。本文对索引的逻辑层和存储层进行了详细地设计,重新设计了主表数据与索引表数据在HBase下的存储分布,并设计了预分区方法来对HBase进一步进行优化。为了解决数据一致性问题,本文对索引的写入、更新操作也重新做了设计。为了降低方法的侵入性,使本文方法能够在HBase版本迭代后仍提供很好的索引支持,本文用Coprocessor完成了方法的实现。为了测试本文方法的性能,分别从单列查询性能、多列查询性能、数据写入性能、数据冗余度四个方面进行了实验,并在每个实验中将本文方法与原HBase及其他方法共同对比分析。  实验结果表明,本文方法能够有效地提高HBase非RowKey的查询性能。不仅如此,本文方法对原始HBase的写入性能影响较小,并且有着较低的数据冗余度,与其他方法相比具有一定的性能优势。
其他文献
同步技术是OFDM数字接收机的关键技术之一,同步算法的优劣对整个OFDM性能具有重要的影响。目前,关于OFDM的同步算法有很多,但是在不同的应用系统的接收机中有各自的特点。针
无线传感器网络是由大量的传感器节点采用无线自组织方式构成的网络,其应用前景十分广阔。ZigBee技术则是一种具有统一技术标准的短距离无线通信技术,其PHY和MAC层协议基于IE
近年来IPTV作为新兴业务在国内外得到了极大的发展,IPTV机顶盒是IPTV系统的终端设备,是IPTV业务系统的重要组成部分,目前受到多方的关注和研究。AVS-IPTV机顶盒是利用中国完全自
近年来,随着全国经济的发展和化工企业的增加,各种危险化学品的运输越来越频繁。由于环境部门对危险化学品水上运输的限制,危险化学品更多的是通过机动车辆运输。装载有危险化学
随着光纤通信技术的飞速发展,人们对于信息的需求与日俱增,如何尽可能的利用现有光设备,最大限度提升光传输系统容量,提高频谱效率成为光通信的研究热点。本文采用光滤波的方
3D视频技术是当前研究的热点领域之一,它能反映场景的景深信息,给用户带来更加逼真的观赏体验。联合视频专家组(Joint Video Team, JVT)提出了一种多视点视频加深度(Multi-Vi
随着数字电视日益深入人心,高清概念越来越为人所熟知。带有高清视频功能的产品已经逐步走向人们的工作和生活,高清视频处理已经从理论研究走向系统实际应用。毫无疑问,无论是从
实现任何人在任何时间、任何地点与任何人进行任何种类信息交换的普适计算环境是未来通信系统发展的主要目标。AdHoc网络对这一目标的实现起着重要作用,它已经被当作下一代移
机会波束成形技术可以在多用户环境中人为地增大信道变化的幅度和速度,从而提高系统吞吐量,有着广阔的研究前景。MIMO系统中波束成形与传统波束成形的概念不同,MIMO系统的波束成
摘要:宿迁市体育中心和全民健身中心工程是宿迁市重点为民办实事项目,它不但可满足人民群众日益增长的文化体育需求,更可以加快宿迁中心城市的发展,可以承办国内大中型单项比赛,提升宿迁城市品位,加快旅游产业的发展。  关键词:体育中心、全民健身、实践创新、工程管理  中图分类号:G8文献标识码: A 文章编号:  宿迁市体育中心和全民健身中心工程总建筑面积为约47000㎡,其中全民健身中心和地下室4000
期刊