论文部分内容阅读
多维建模一直是数据仓库中一个非常具有挑战性的问题,也是最基本的问题。多维建模的好坏关系到数据仓库的健壮性,功能性以及查询效率等。目前的研究工作往往将用户的需求和数据源分开表达,缺乏将二者相结合的统一工具。在基于本体的混合驱动建模研究中,多维建模的推理结果仍需要以统计的方式与需求进行匹配。所以,为了协调数据源和需求信息,以及提高多维建模的自动化程度,需要统一的需求-数据源相结合的混合驱动多维建模构建工具。工具需要在建模阶段更加精确地表达用户需求,从而降低本体自动推理算法的复杂度并且提高本体多维推理结果的质量。 同时,随着大数据时代的来临,数据量的不断扩大以及查询请求的复杂化,传统OLAP系统很难应对如此大规模数据上的分析处理。目前,MapReduce并行计算框架很难满足快速OLAP查询处理,并且,传统的星型模式中的多表连接问题制约了数据分析速度。因此,大数据下,OLAP分析需要更快速的并行计算框架以及改进的物理存储模式。 因此,本论文针对混合驱动多维建模方法及其工具进行了研究,主要工作包括: (1)在概念建模中,传统的混合驱动多维建模方法缺乏将需求与数据源信息同时表达的工具,将两部分分开处理。本文基于本体编辑工具protégé,实现了“用户友好”的混合驱动建模工具。数据源部分,采用关系数据库与本体间的模式转换,实现了关系数据源在本体中的表达。需求信息部分,利用SQL语言清晰的表达能力,更加精确地表达用户需求,工具支持以拖拽、点击的方式构建相应需求。 (2)在逻辑建模阶段,对基于本体的自动多维建模方法进行了改进,不再根据概念间多对一关系的阈值确定多维概念。本文根据概念建模阶段构建好的扩展本体,首先分析用户的需求信息,从用户需求中的关键概念出发,再在本体中进行多维信息的自动推理。相比于传统的本体自动多维建模方法,降低了推理算法的复杂度,同时提高了推理结果与用户需求的相关性。 (3)在物理建模部分,针对大数据环境下的OLAP查询特性,其往往需要在海量数据上进行快速地复杂运算。并且,在其SQL语句中通常包含多表连接和聚集操作。因此,减少多表连接并且加快大数据下聚集运算的速度,成为大数据下查询处理的关键问题。为此,本文提出了一种结合Shark的内存计算以及维度层次编码的存储方式,减少了星型模式中复杂的表连接,减少了查询开销,提高了OLAP查询效率。实验结果表明,该存储模式是非常有效的。