论文部分内容阅读
大数据多维分析平台旨在从多个角度、多个侧面观察和挖掘海量数据,经过专业的整合与分析,最后输出可视化数据或图表,帮助分析师和企业用户深入了解包含在数据中的信息和内涵。面对数据量和分析需求的爆发式增长,本文采用MOLAP(Multidimensional OLAP)的预计算技术突破传统ROLAP(Relational OLAP)平台的性能瓶颈,但其应用却存在以下问题与挑战:1)在预计算技术的应用中,多维数据模型的构建和优化过度依赖数据专家,当数据规模不断增加、数据分析需求频繁变化时,这种手动建模的方式会耗费大量人力;2)传统的多维模型优化算法存在由于评价指标单一(仅评价物化时间,过度追求物化视图的查询命中率)导致的超高维度时的维度灾难问题、以及物化视图集频繁抖动的问题;3)MOLAP由于查询场景固化,必须应用在混合引擎的系统中,然而在基于混合引擎的系统中,ROLAP和MOLAP引擎各有所长,系统难以在二者之间做出快速、合理的选择,亟需一种多维模型索引对查询路由提供支持。针对以上问题和需求,本文对大数据多维分析、预计算和多维数据索引等技术进行了深入的研究和分析,主要研究内容如下:(1)研究并实现了多维数据模型的自动构建及持续优化技术。通过分析历史查询任务提取元数据,在后台自动学习沉淀数据间的关联知识、构建数据表关联视图,以此为基础设计多维数据模型并进行物化,打通“原始数据—预计算—数据分析”的路径,并在多维数据模型使用的全生命周期对其进行监控和优化,使MOLAP的使用更加便捷化、智能化。(2)提出并实现了基于带权图的多维大数据模型优化算法。算法引入了新的评价指标:平均查询时延和膨胀率,有效权衡了查询性能和存储空间,解决维度灾难的隐患。并通过挖掘维度之间存在的关联信息划分聚合组,使数据模型适应探索式分析的需求,减少物化视图集的频繁抖动。(3)研究并实现了基于混合引擎的多维数据查询技术。提出了一种基于Cube生成树的Bitmap索引,并给出这种Bitmap索引的检索方法和整体查询路由策略,用于解决查询引擎的选择问题。这种Bitmap索引契合多维数据模型的结构,并且占用空间小、位运算速度快,为混合引擎的查询路由提供了一种高效的索引解决方案。最后,基于以上三方面的研究设计并实现了大数据多维建模分析平台,应用于国家重点研发计划项目“基于大数据的科技咨询技术与服务平台研发”中,验证了本文平台及方法的有效性及实用性。