面向异构异质数据的数据聚合系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zouxudong163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着大数据技术和应用的发展,大数据平台接入的数据越来越呈现出海量、异构异质和流式的特征。“异构数据”主要指的是数据格式各不相同的多种数据,而“异质数据”主要指的是数据质量参差不齐的多种数据。在此背景下,构建“数据聚合系统”实现异构异质流式数据的接入、预处理和分发成为行业热点。本课题旨在设计并实现面向异构异质数据的数据聚合系统,实现了数据接入、数据预处理和数据分发等功能。其中,数据接入实现了对多种来源的不同数据结构的适配接入;数据预处理实现了对接入数据的格式检查和清洗;数据分发实现了数据向多个应用的分发。针对数据来源多样,数据格式灵活的问题,引入了统一的数据格式描述,实现了对多源异构数据格式的统一表示和灵活接入;针对流式数据的异质性问题,提出了一种基于GAN模型的增量流式数据清洗算法(SDC-IGAN),设置多层LSTM作为GAN的生成器和判别器,来处理流式数据点之间的时序关系,实现了时序数据异常点的识别和修复;针对SDC-IGAN中流数据的概念漂移问题,设计了一种在线增量学习策略,实现了在线实时流式数据的异常点识别和修复功能。此方法相比于现有方法,在流式数据场景下,数据修复的准确度上获得了更好的效果,并能够有效克服在线增量学习出现的灾难性遗忘问题。本文首先介绍了面向异构异质数据的数据聚合系统的研究背景;而后基于对业界的多个数据聚合系统的调研分析面向异构异质数据的数据聚合系统需求;接着提出了异构流式数据统一表示方法和基于GAN的增量流式数据清洗方法;然后对面向异构异质数据的数据聚合系统的设计与实现进行了详细的介绍;最后通过一系列测试验证了系统的有效性。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
学位
学位