基于Hbase的分布式全文索引及检索技术的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:congrorm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入大数据时代,数据量呈指数式爆炸增长。相比于纵向扩展单机的处理性能和存储容量,采用分布式服务器架构来进行数据的存储和检索是一种更经济和更易实现的解决方案。Hbase就是一个基于Hadoop分布式平台支持海量数据存储的非关系型数据库,并且在各大互联网公司都得到了广泛使用,但其缺点在于只支持主键检索,如何在Hbase数据库的基础上设计支持海量数据的全文索引和检索方案成为了当前的一个研究方向,它既可以解决海量数据的索引和检索问题,又对Hbase进行了赋能,有利于Hbase的深度开发和推广。  本文提出了基于Hbase存储结合分布式内存缓存的索引分层存储模型以及使用MapReduce大数据计算模型进行索引构建的方案。设计了一种适合Hbase存储结构的倒排索引表,利用Hbase存储倒排索引,并使用分布式内存进行倒排索引的缓存,提高检索效率。将源文档分块,Map阶段并行构建局部倒排列表,Reduce阶段将局部倒排列表合并为全局倒排列表,采用单独的全局统计服务器进行索引全局信息的统计,解决了Map阶段局部索引构建过程中全局词频信息统计的问题。最后设计了基于向量空间模型的检索方案。  针对Hbase重复存储Key值字段的存储特点,设计了字典压缩算法来压缩Hbase索引文件中的Key,使用变长字节码压缩算法压缩倒排列表中的位置列表。结合LRU和LFU缓存置换算法设计了适合全文检索场景的热点缓存置换策略,进一步提高了缓存的命中率。  测试结果表明本方案达到了预期效果,在本文的测试集群中,索引的构建速度可以达到15MB/S。在源数据量达到TB级别时,使用压缩算法可以节省3/4的索引存储空间。得益于分层式索引存储结构和基于热点的缓存置换策略,在结果集较小时,检索的响应时间可以达到秒级,但当结果集比较大时,检索的响应仍然有优化的空间。
其他文献
LTE是3GPP近期主要的研发项目,作为3G的演进技术,它具有频谱效率高、网络延时小和系统容量大等优点。混合自动请求重传技术作为一种有效地差错控制技术,既可以保证高数据速率
学位
道路是我国重要的基础交通设施,每年国家在基础建设上不断加大投资力度,道路建设也呈现出逐年增长状态。道路的实时更新对于车辆导航、交通管理、突发事件快速反应、城市规划
无线局域网(WLAN)是计算机网络与无线通信技术相结合的产物,目前得到了广泛应用。由于WLAN的AP功率有限导致服务覆盖区域受限,移动站点(STA)需要在当前AP覆盖小区移动到另一
无论在什么时代,粮食都直接关系到了国家经济的发展和社会的稳定,而且我国是一个人口大国,粮食作为物质基础中最重要的一个环节更有着举足轻重的作用。为了保证民生,国家都会
随着通信测量技术、数据存储和功率计算的发展,电力谐波监控系统得到了广泛地发展。电力系统谐波状态估计技术根据有限的谐波测量数据来估计整个电网的谐波分布,从而达到对整个系统进行谐波监测和谐波管理的目的。由于电力系统谐波测量设备和谐波数据的限制,获取所有谐波网络参数或拓扑结构是很难的,应用传统的状态估计技术无法估计出谐波电流曲线。针对这一问题,本文应用独立分量分析技术估计电力系统谐波电流。首先,本文简要
船用投弃式温盐深测量系统简称XCTD(Expendable Conductivity Temperature andDepth System),是国外率先研制并得到快速发展的一种温度、盐度和深度的海洋剖面测量系统。它对
随着世界农业技术的巨大变革,设施农业成为现代农业的重要组成部分。以传感器与通信网络相结合的全方位环境监测系统在设施农业中占有重要地位,尤其是基于无线通信技术的环境监
图像去噪是图像处理中的一个热门话题,其思想是在尽可能保留原始图像信息的前提下最大程度地剔除图像噪声。Contourlet变换是一种非常有效的多尺度几何分析方法,其克服了小波
帕金森病(Parkinson’s disease, PD)是一种神经性系统变性疾病,患病者多为中老年人群,该病主要的症状有静止性震颤、肌僵直、运动迟缓和步态障碍,其中步态障碍表现为下肢活
量子信息学是一门新兴的交叉学科,它在信息领域中有着独特的功能,在提高运算速度、确保信息安全、增大信息容量和提高检测精度等方面可突破现有经典信息系统的极限。特别是近年