非结构化文档数据一体化存储检索技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiao_zhuang_lin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网及大数据时代的到来,新数据的产生速度几乎在以指数级的形势增长,而这大量的数据当中,又以格式不确定的非结构化数据为主。文档数据作为非结构化数据的重要组成部分,已有的关系型数据库工具及技术对其则很难驾驭,必须寻找新的方法与技术应对非结构化文档数据的存储与检索。首先,通过理论分析与实验对比,确定了Hadoop结合Elastic Search的架构,前者用以解决非结构化文档数据的可靠性存储,后者主要用以解决数据的实时检索问题。接下来,在非结构化文档数据存储技术改进方面,针对Hadoop分布式文件系统针对大量小文件存储的缺陷,提出了基于数据块平衡的小文件合并算法,降低了系统负载,提高了系统处理效率;由于Hadoop不能提供实时检索服务,必须将数据进行同构化处理,在Elastic Search中进行索引供检索使用。为此提出支持插件化方便横向扩展的非结构化文档数据同构化技术,利用Hadoop的并行计算框架Map Reduce进行数据同构化处理;在非结构化文档数据检索优化技术方面,利用Elastic Search特有的过滤器机制结合互联网身份信息数据特点,提出了基于过滤器的检索过程优化方法,大幅度提高部分数据的检索效率;另一方面,结合系统参数以及应用参数等调优,进一步优化了整体数据检索的性能。在存储与检索的诸多优化改进研究之后,都配有详尽的对比测试实验及结果分析,证实了方法的有效性。最后,结合已改进优化的相关技术,进一步完善了系统总体架构,在设计并实现了用户交互界面的基础上,完成了整个非结构化文档数据一体化存储检索系统的建立。
其他文献
无线传感器网络是当前在国际上备受关注的、涉及多学科高度交叉、知识高度集成的前沿热点研究领域。路由协议是无线传感器网络层的核心技术。从路由的角度看,无线传感器网络
互联网技术的迅速发展,使Web已经成为世界范围内信息共享和信息传播的最主要渠道之一,其网上的文本数量也成指数级增长。如何能够快速和精确地在浩瀚的信息海洋中检索到用户
近年来,布料仿真技术已经越来越成为计算机图形学领域研究的热点。现如今布料仿真技术已应用于许多我们熟悉的领域,在计算机动画、游戏、虚拟服装展示以及虚拟模特的着装,甚
第三代移动通信网络系统(3G)支持跨广域网络的移动性,但是数据吞吐速度相对较低。无线局域网(WLAN)提供了高带宽,但却限制在有限的覆盖范围内。因此将两种网络融合起来实现优
随着数据库技术的发展和各行业间信息交换的日益频繁,不同种类数据库之间进行数据共享的要求日益突出。传统的异构数据库间的数据转换工具已不能很好地解决类型复杂的异构数
随着信息技术的发展和计算机网络的普及,信息安全显得尤为重要。如何保护信息的安全已不仅仅是军事和政府部门感兴趣的问题,各企事业单位也愈感迫切。密码是有效且可行的保护
学位
MDA(Model Driven Architecture)是对象管理组织(OMG)提出的软件开发架构,其主要思想是模型在软件开发过程中扮演了非常重要的角色,真正实现了功能与实现的完全剥离。将MDA引
NAND闪存已经成为主流的存储介质,并被广泛地应用到嵌入式、桌面、服务器以及数据中心等各种计算机系统中,并仍迅速地挤占传统纯磁性材料存储介质的市场。与此同时,在航空航
实时操作系统在当前的各个领域得到广泛应用,越来越引起人们的重视。在众多的实时操作系统中,基于Linux的实时操作系统,由于开放源代码,以及Linux系统的稳定性,日益受到人们