异构数据复杂分析任务的数据模型选择方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:net130130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据的发展,数据呈现出增长快速且格式多样的特点,传统关系型数据库在处理此类数据的复杂分析任务时,其局限性越来越凸显。因此,更多的数据开始以非关系型数据存储,如图数据、文档数据、Key-Value数据等。由此带来的是,异构数据复杂分析任务越来越普遍,这类分析任务在涉及多种数据模型的异构数据组合中执行查询。而数据的异构不仅在数据维护、管理等方面异常困难,更主要的是在执行分析任务时难以获得最优的执行效果,同时消耗更多的资源。因此,有必要将异构数据进行统一处理,转换为同一种数据模型用于分析任务。如何确定合适的数据模型,用于统一查询中包含的异构数据,以获得更高的数据分析效率,是一个亟待解决的问题。传统解决方案是将所有数据集成到一起,以XML数据作为中间转换模型,之后分析任务基于XML格式数据执行。由于XML数据自身的查询特点,其难以满足大数据量的分析需求。而且,NoSQL数据库技术的发展,可以很好地支持关系型数据与非关系型数据之间的转换,为我们的数据存储方式提供了更多的选择,使得我们能够完全以非关系型数据的存储模型完成分析任务。我们认为在分析任务涉及的异构数据组合中,存在一种最优数据模型,将异构数据统一为该模型进行分析,能够获得最优的执行性能。由此,本文提出一种基于代价估算的数据模型选择方法,将代价模型引入该方法,估算查询任务在不同数据模型上的查询代价,将其作为衡量数据模型的标准,选择出查询代价最小的数据模型,分析任务在该模型下可以获得最优分析性能。本文主要研究内容是:(1)研究异构数据组合中涉及的数据模型及其查询特点;(2)设计并实现基于非关系型数据的查询代价估算模型;(3)基于代价估算对比关系型数据与非关系型数据的查询代价,完成异构数据组合中最优数据模型的选择;(4)基于BigBench大数据评测基准生成的数据集,设计查询用例,验证该方法的准确性及有效性。
其他文献
根据对钢轮振动压路机在工作过程中的力学状态分析本文提出了能显著影响压实效果的压路机相关性能参数,并给出了钢轮振动压路机在设计这些参数时的具体方法。压路机的性能参
随着社会经济的快速发展,我国港口的业务量在不断增加,智能化、机械化是港口事业发展的必然趋势。高程度的机械化带来的是对机电设备的高要求,同时也在提高这港口机电设备出
【目的】验证内源基因间来源的20-25nt的small RNA(sRNA)是否具有干扰功能。【方法】通过建立隐球酵母sRNA测序文库,得到约200个长度在20-25 nt的sRNAs,运用建立的验证新型隐
新村港泻湖位处海南岛东南部的陵水县,其潮汐通道是新村港泻湖与外海之间的水体相互沟通的通道.该通道自形成以来,受其口外海滨风浪、潮流作用、堆积地形以及泻湖纳潮量变化的影
“我推崇滴水穿石的景观,实在是推崇一种前仆后继,甘于为总体成功牺牲的完美人格;推崇一种胸有宏图,扎扎实实,持之以恒,至死不渝的精神。”$$ 这段话虽然只是习近平同志《摆脱贫
报纸
我国经济发展速度越来越快,人们的生活水平不断提高,信息化、科技化趋势越来越明显,互联网时代的到来给我们的日常生活提供了极大的便利。与此同时,电视新闻采编行业逐渐发展
目的分析并探讨抗生素联合妇科千金片治疗子宫内膜炎的临床效果,为临床治疗方案选择提供依据。方法随机选取2014年1月-2015年12月该院院接受治疗的子宫内膜炎患者180例为研究
<正>2018年1月以来,国际权威机构和专家对世界经济形势和中国经济形势的主要观点综述如下。一、对世界经济形势的主要观点(一)2018年全球经济增速预计将提高至3.9%2018年1月2
明代“里老”制是朱明王朝加强对基层社会控制的产物,它的施行对乡村社会产生重大影响。本文即以《明史》、《明实录》、明人文集、地方志等材料为论证基础,从“里老”制的职能
期刊
封堵-射孔-完井测试一体化管柱主要是在原有射孔联作管柱的基础上增加了裸眼旁通。应用该管柱可一次性完成封堵、射孔和测试完井等作业,能缩短施工时间、节约施工成本、降低