基于分布式数据库中间件的混合类型数据管理研究

来源 :东华大学 | 被引量 : 6次 | 上传用户:Play_pig
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息化向人类社会各个层面的渗透和发展,在企业、科学、互联网等领域均产生并汇集了大量数据,大数据时代已然来临。目前,越来越多的应用领域涉及到大数据的存储和查询分析处理,其所蕴藏的科学价值和商业价值逐渐体现。然而大数据在规模与复杂度上的快速增长对现有数据管理技术带来巨大挑战。伴随着海量异构数据的急剧增长,集中式数据库在存储和计算等方面的局限性日益显著,数据管理向分布式发展已成为普遍趋势。分布式数据库中间件为用户提供了透明的构建数据库集群的方案,对目前广泛应用的MySQL、Post GreSQL等开源关系型数据库提供简捷方便的分布式支持。事实上,分布式数据库中间件在原理上能够实现不同类型的底层数据库和应用集成。为此,若在底层将关系型数据库与NoSQL数据库进行统一集成,将有望对不同来源和不同结构的数据进行自适应存储和查询优化,从而实现对多源异构数据的统一管理。首先,本文对大数据及其多源异构的特点进行了介绍,指出在大数据多源异构的背景下,单一使用某一类数据库存在的缺陷,表明同时应用多种类型数据库的必要性。另一方面,重点介绍了分布式中间件的概念、原理、特点及代表性产品,探讨了利用分布式数据库中间件进行混合类型数据统一管理的可能性,分析了现有分布式数据库中间件对不同类型数据支持上的缺陷和不足。在此基础上,提出基于分布式数据库中间件的混合数据管理框架,对框架的体系结构进行了介绍。进一步,本文设计了基于分布式数据库中间件的混合数据查询机制。针对目前广泛存在的半结构化-关系型混合数据、非结构化-关系型混合数据,分别基于Mongo DB-MySQL,Hadoop-Hana提出两类查询机制。本文设计类SQL查询语句以提供统一的上层查询接口,在开源分布式数据库中间件MyCat上实现了新的查询解析,查询拦截及查询推送功能,并进一步设计了混合类型数据的查询与优化算法,对上述两类查询机制进行了实现。最后,论文使用从某医疗咨询网站下载的实际数据集以及大规模通用TPC-H数据集,对本文所提框架和算法进行了功能和性能上的验证。实验结果说明了本文方法的有效性,验证了本文方法是对多源异构数据管理解决方案的有效尝试。
其他文献
深度万维网蕴藏着海量的信息,由于其隐藏性,现有的搜索引擎很难搜索到其中的内容。目前还没有研究出很好的方法和模型来捕获其内容,很大程度上制约了人们获取更多、更有价值
机器学习的方法在生产和科研中都有着广泛的应用,而集成学习则是机器学习领域中一门重要的研究分支。集成学习是把一系列基学习器结合在一起再做预测的一种方法。在理论和实践
图像分割是图像处理、分析与理解、图像识别和计算机视觉研究领域的一个重要组成部分,也是一个经典难题,特别是对于普遍存在的复杂图像(如医学、自然)分割问题,目前并没有统
随着Twitter、新浪微博、腾讯微博等的普及和流行,微博已经逐渐融入人们的日常生活中,成为人们日常生活交流的工具之一。微博的广泛使用产生了大量的数据。这些数据既包含了有
随着互联网的快速发展,隐藏在Web后台数据库中的信息资源因为其数据量大、结构完整而受到了广泛关注,这些信息通常需要用户提交查询请求才能访问而且不能被传统搜索引擎所索引,
动态优化问题(Dynamic Optimization Problem,简称DOP)是现实社会中普遍存在的一类实际优化问题。相对于静态优化问题而言,DOP的目标函数或者约束条件会随着时间而变化。近年来,利
在我国目前的医学教育过程中,特别是在普外科教育、解剖教育和微创手术教育过程中,由于缺乏真实的人体器官资源,学生掌握知识的途径主要是通过教师的讲授和从教材中获取相关知识
分片式处理器体系结构(TPA)将计算、存储和互连资源组织成片式的基本结构单元,并将大量的片式单元由高效能、可扩展的片上网络连接起来。为了有效利用TPA丰富的片上资源,高度暴
集团为了考核信息系统运维的水平,与一些先进的指标进行比较,使用一些指标的得分数据来对企业信息系统运维情况进行分析,从而在对比中看出本单位的不足,努力在管理上得到更进一步的改进,在指标上能够获得更高的水平。针对信息系统运维集团提出的指标管理体系,其内容包括系统运行水平、系统运行安全、调运体系建设、运行队伍建设、运行专项工作、事故与障碍等指标。本文就是基于指标体系中各单位运行评价与分析系统提出利用高维
异步无线传感网络中的全网广播是一项最基本的网络服务,主要应用于环境监测、软件更新等场景。无线传感网络中的传感节点大多数由电池提供能量,所以网络中的能量有限,而转发数据