基于HBase的复杂条件查询系统的设计与实现

来源 :武汉邮电科学研究院 | 被引量 : 1次 | 上传用户:slrjlc2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
身处在互联网和信息化的时代,我们周围每天都会产生大量的信息,伴随着身边的信息量呈爆炸式的形式增长,传统的关系数据库已经不能满足大数据量的处理,在这种信息量的增长趋势下,给我们传统的业务网站或者信息系统原本正常的功能带来了灾难性的后果,带来这种后果的主要原因不仅仅是因为数据规模的扩大,也与数据结构的变化有关[1]。相比于原有的关系型数据库,现在需要处理的数据大多数为非结构化的。目前的关系型数据库系统不但不能够处理非结构化的数据,同时也无法高效地处理大规模海量的数据,为此催生了许多非关系型数据库用来处理此类数据,其中HBase就是一种处理海量数据的非关系型数据库。HBase是基于Hadoop平台的一个大规模的、分布式的、面向列的开源数据库,在处理大规模、非结构化的数据方面表现卓越,但是HBase只提供通过RowKey主键去检索数据的方式,用户只能通过键查找数据库中的值,却无法根据值来条件筛选数据,在使用过程中多有不便。而且,HBase数据库还放弃了关系型数据库中的事务特性,二级索引机制和使用结构化查询语言SQL语句来检索数据等特点。而在许多的应用中,又有着需要根据具体信息内容来检索数据的需求,同时由于数据本身的复杂性和结构的不确定性,以及当前系统中的数据量越来越大,人们对系统的查询速度和准确性的要求不断提高,针对普遍的需求,开发者们希望HBase在保持原有高效处理海量数据特点的同时,增加复杂条件查询的功能,而本文正是要介绍一种基于HBase系统基础之上的复杂条件查询系统。本文在HBase的基础上,设计一个能够满足复杂条件查询的高性能系统。系统保持了HBase原有的特性,改进了易用性和实时性,并且增加了对SQL语言的支持,使系统更易于使用,并且在支持SQL语言查询数据的同时为了保证查询的效率,建立了二级索引,用于数据的实时查询。用户输入的SQL先经过本系统所设计的SQL转化引擎进行SQL命令解析,然后将解析出来的字段和关键字经过查询策划器对不同类型的SQL语句的处理流程进行规划,并将其转化为HBase API对数据进行操作,其中本文使用ANTLR作为SQL语句解析器。为了提高查询的效率,在数据上建立二级索引,并使用Coprocessor框架开发了属性条件删除功能和属性条件更新功能,还利用Coprocessor栏截Region的put,delete等操作,实时生成索引,同时本文还提供了使用MapReduce框架为已经存在表中的数据生成索引的功能。最后对本系统进行测试,与不同的实验条件作比较。并得出实验结果,本文所构建的系统能够支持SQL语句的查询,并且提供了良好的性能,可以在不失去HBase原有性能的基础上进行复杂条件的查询。
其他文献
铜铟镓硒薄膜太阳能电池(Culn1.xGaxSe2solarcells,简称CIGS)是一种清洁的新型薄膜太阳能电池,其性能稳定,抗辐射能力强,成本低,转化效率高,光谱响应范围宽等优点,近年来成为
景深是对现实中人眼观察景物的一种模拟,通过周边的模糊,从而突出聚焦区域的物体。软阴影也很逼真地模拟了自然界中的阴影效果,使得阴影区和光亮区有一定的过渡,同时也消除了
在发生失水事故(LOCA)或主蒸汽管道破裂事故(MSLB)时,在破口处由于水流喷射和随后高温高压蒸汽的泄漏可能会产生大量不同类型的碎片,如颗粒碎片,潜在的纤维碎片和化学碎片。
经济全球化推动着区域一体化和文化的大交融,平衡、协同和趋同成为新时代社会经济发展的主题词。与此同时,城市因受到外来文化和外来新生元素的冲击,固有的系统稳定性遭到破坏,城市间的差异性逐渐缩小,如何在新时代背景下保护和发展城市特色成为城市发展的焦点问题。延安作为中国的革命圣地与历史文化名城,拥有丰富的历史文化遗产,加之独有的陕北黄土高原地貌特征和地域文化内涵形成了独有的城市风貌。“宝塔山延河水”、窑洞
为了缓解机动化快速增长带来的交通拥堵、污染等压力,我国确定了“公交优先”的城市交通发展战略。然而,由于传统规划理念的影响,对交通参与者空间路权的关注不够,造成了小汽
随着科技与旅游的融合,成都双流区设计推出了富含其地方特色的线上双语旅游地图《天府双流智慧旅游地图》,其中所包含的旅游信息为前来双流旅游的中外游客提供了便利。本次翻译实践报告基于《天府双流智慧旅游地图》中的中餐菜名英译项目。首先,简单介绍了本次项目的内容和项目进行的实践意义。接着介绍了笔者的译前准备。通过对中式菜名命名方式的文献综述来进行翻译难点分类,并进行相关术语总结,以及译后的质量保证环节。然后
针摆传动多用于通用传动和高精传动中。通过对摆线轮的组合修形,得到不同的修形齿廓应用于不同的传动情况中,但没有一种摆线齿廓可以同时保证高承载能力和高传动精度。FT传动
随着计算机应用技术的快速发展,企业规模的不断扩大,企业信息管理系统结构复杂化,暴露出了传统信息系统授权模块普遍存在的缺陷:授权管理复杂、授权方式单一、无法对细粒度权
本研究以Si粉、SiO2粉、SiC粉为主要原料,采用无压烧结方法在氮气气氛中制备氧氮化硅及氧氮化硅结合碳化硅陶瓷。通过阿基米德密度测定法、X-射线衍射仪、扫描电子显微镜、数
研究区位于鄂尔多斯盆地三级构造单元伊盟隆起和伊陕斜坡的过渡位。通过对盆地北部构造演化特点的综合分析研究,提出了盆地中生代构造演化为研究区内砂岩型铀矿的形成提供了