论文部分内容阅读
随着数字化校园的建设,传统的数据集成系统在海量数据的环境下数据查询和加载的效率均有所下降,且难以融合非结构化、半结构化数据进行融合和分析,针对以上情况,依托高校大数据平台,从各个异构系统中抽取出数据,设计并实现了一个基于MPP-Hadoop混合框架的的高校异构数据集成的系统,解决了现有数据集成系统难以融合多种异构数据源、海量环境下数据查询和加载效率低的问题。并以某高校为例,从学生的门禁刷卡系统和校园网系统中抽取出学生的行为轨迹数据,进行数据融合,并与传统数据仓库产品Oracle搭建的现有高校数据集成系统以及第三方方案基于Hive数据仓库的高校数据集成系统进行数据加载和数据查询效率方面的对比评测,验证了系统的有效性以及可行性并且为学校在学生的学习生活、心理等各方面的管理工作提供一定程度上的技术支持和指导。本文针对高校的信息化以及海量数据背景下的数据集成产生的问题,提出了优化的设计方案,主要的工作如下:(1)介绍了本课题的研究背景及意义,并介绍了数据集成技术目前国内外的研究现状。阐述分析并比较了目前数据集成中的主流技术。(2)对高校信息化建设中存在的问题进行了需求的分析,设计并实现了一个基于MPP-Hadoop混合架构的高校异构数据集成系统,为目前高校进行数据集成的过程中出现的处理数据量小、难以融合半结构化、非结构化数据提供了解决方案。(3)对系统建设中的关键问题数据加载数据过慢、查询效率低的问题以及解决思路进行了详细阐述。引入改进的蚁群算法和贪婪算法来解决数据加载及数据查询效率问题。(4)以学生行为轨迹数据为例与现有系统以及第三方方案基于Hive数据仓库的高校数据集成系统进行在数据查询和加载两个方面对比评测,较好的解决了目前系统存在的不足,分析并证明了本文系统的有效性。