流式大数据脱敏系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:fjlmh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据中蕴含着巨大价值,被称为21世纪的“新石油”。然而,大数据中往往包含了大量的个人敏感信息,如果未经处理直接发布或共享大数据会导致严重的个人隐私信息泄露问题。数据脱敏是指按照脱敏规则对数据进行处理,从而实现对隐私信息的保护。匿名化是常用的脱敏方法之一,通过对数据进行泛化、抑制等操作,保证数据的隐私信息不被泄露。现有匿名化算法大多为针对静态数据的匿名化算法和针对数据流的集中式匿名化算法。对于流式大数据来说,集中式数据流匿名化算法受到单个节点的计算效率和内存容量限制,难以满足单位时间内对海量数据脱敏的需求。因此,面向流式大数据的分布式匿名化算法的研究具有重要的理论意义和实用价值。流式大数据具有单位时间内数据体量大的特性。现有的集中式数据流匿名化算法计算能力有限,无法满足流式大数据的脱敏需求。因此,本文基于经典的集中式数据流匿名化算法CASTLE,提出两种面向流式大数据的分布式匿名化算法,即基于网格的分布式匿名化算法和基于VP-Tree的分布式匿名化算法。本文基于分布式流计算框架Flink,实现上述算法,并对算法的效率和效用进行测试。实验结果表明,与基线算法相比,本文所提出的两种算法能够对流式大数据进行脱敏,并且能够在保证数据效用的前提下拥有较高的算法运行效率。本文基于所提出的面向流式大数据的分布式匿名化算法,设计并实现一套流式大数据脱敏系统。本文实现的流式大数据脱敏系统包括四个模块,分别为前端交互模块、权限管理模块、脱敏算法模块和数据管理模块。系统具有用户管理功能、流式大数据脱敏功能和订阅脱敏后的流式大数据等功能。本文对系统进行功能测试和非功能测试,测试结果表明,本文设计并实现的流式大数据脱敏系统的各功能模块符合设计预期,系统性能符合应用要求。
其他文献
随着当今无人机技术的发展,无人机已广泛应用于民用、军用等诸多领域,据研究无人机的飞行事故大多数发生在无人机回收过程中。为了增大无人机降落的成功率,便于无人机降落在车辆、船舶等运动的平台上,论文设计了一种成本低廉、实时性强能够时刻保持水平的辅助无人机降落的装置,主要贡献有:(1)研究了当前自动调平平台的调平方法,通过分析各种调平方法的优缺点和无人机助降平台要实现的功能,设计了无人机助降平台的总体实现
自改革开放以来,我国的经济告诉发展,资本市场也逐渐显露出其在国际地位中的重要性。作为资本市场的根基——中国企业的经营管理也意识到风险管理的重要性,这其中就包括财务风险。因而,对财务风险管理相关的防范措施研究也变得越来越重要。在曾经的金融危机中,我们也能从各种集团公司的破产中,总结出财务风险对企业的生存和发展的预警作用。本文研究的企业属于保险行业,与传统行业相比,起步较晚,发展时间较短。但随着中国居
随着互联网的飞速发展,在我们的日常生活中网络数据无处不在,如何挖掘这些网络中的信息供我们使用是非常重要的,网络表征学习是常见的数据挖掘方法,但是,现有的网络表征学习方法忽略了许多关键性问题如忽略隐变量的数据分布,未能充分利用现实网络数据等相关问题。基于此,本文提出了一个新颖的基于对抗图卷积的网络表征学习框架AGCN(Adversarial Graph Convolutional Networks)
俗话说:“乡村治,则郡县稳;郡县治,则天下安”。乡村的长治久安是国家繁荣昌盛的基石。乡规民约作为维护乡村社会秩序和教化乡民的重要载体,历来都受到学术领域和政府的格外关注。尤其在经济相对落后、交通闭塞的少数民族地区,其村级组织更多的是依靠乡规民约来管理规范本村寨事务。本文以湘西民族地区的部分村寨为调研地对乡规民约开展实证研究,通过实地走访调查,了解整个湘西民族地区乡规民约的现状和特点,找出其不足之处
随着计算机视觉、人工智能和5G等新基础技术的快速发展,同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)作为无人驾驶、移动机器人等人工智能应用领域关键性技术成为新的研究热点。目前对于SLAM的研究大多基于静态场景的假设,而室内环境下动态物体不可避免存在,基于静态场景的假设极大限制了SLAM的发展研究和SLAM系统在现实生活中的应用。而且,没有
随着智慧城市的不断发展,大数据的信息时代背景给现代城市的规划提供了强有力的支持。这正是因为高分辨率遥感数据提供了关于城市用地中的空间特征、光谱特征、纹理特征等大量的高维数据信息。在采集遥感数据中由于客观和主观原因导致出现大量的离群值,故给存在明显离群值的高维数据分类工作带来一定的挑战。传统的分类方法对离群值很敏感,这会影响模型估计的结果,甚至会得到错误的结论,给城市造成重大的经济损失。本文将针对经
人脸属性编辑致力于改变人脸图像的一个或多个特定的属性,同时维持属性无关的图像区域不变,实现了对图像的精细化操控,使得人们能够加深对图像数据的理解。这一技术已被广泛应用于自动美颜、虚拟角色的生成,以及其他计算机视觉任务的数据增强。基于生成式对抗网络的方法虽然凭借逼真的编辑结果,已成为实现人脸属性编辑的主流方法,却依旧面临诸多问题。首先,当学习编辑多个人脸属性时,属性组合的多样性会导致难以收集到充足数
英语口语作为四项基本技能之一,在英语教学中占据着不可替代的位置。2011年颁布的《英语课程标准》规定初中生的英语口语水平要达到五级,但是学生目前的英语口语水平远不如人
随着红外成像仿真技术研究的不断深入,当今人们越来越关注如何进一步提高仿真结果的准确性,同时仿真实时性也成为了评价仿真技术的关键指标之一。相比于传统的以计算机作为仿真平台的全数字红外仿真技术,本文以红外成像系统模拟器为研究平台,在模拟器硬件平台上进行红外成像系统物理效应仿真技术的研究,凭借着FPGA的高速并行运算能力和流水线算法设计思想,极大地提高了仿真速度,满足仿真实时性的要求。首先,本文简要介绍
近几十年来,集成学习引起了工业界的极大关注,它是统计学家们在机器学习领域重点研究的对象之一。集成学习通过训练多个单一学习器并对其结果进行有效融合,能够显著提高单一学习器的泛化性能。本文在充分考虑Bagging,Ada Boost和随机森林等集成学习算法的基础上提出了一种基于KNN的改进的Ada Boost算法。由于Ada Boost算法中各单一学习器之间的相关性较高,本文将借鉴随机森林算法的思想来