基于Spark的海量数据冗余检测方法

来源 :科学技术创新 | 被引量 : 0次 | 上传用户:letaopangpang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单机计算资源难以满足海量数据的冗余检测,提出基于Spark的海量数据冗余检测方法。先基于Simhash算法实现待测数据与对应指纹间的映射(二进制串),再设计指纹检索树并提出基于指纹检索树的数据冗余检测算法ROFA;最后,设计了基于Spark和ROFA的海量数据的冗余检测策略,实现了海量数据的冗余检测;利用UCI提供的数据进行实例分析,证明了该方法的有效性。
其他文献
在无线传感器网络(WSNs)中,密钥预分发算法十分重要。现有的密钥预分发算法通常是在连通性、抵抗节点捕获的安全弹性和存储、通信和计算过载之间进行交换,很难使各项指标都很理想
PLC控制程序是电气系统控制过程中的一个重要环节。传统的经验编程法不适宜较为复杂的逻辑控制。以自动运料小车为例,采用顺序控制设计法,通过画出功能图与逻辑表达式,最终编
上海市嘉北郊野公园坐落在嘉定北郊,是上海市统一规划布局的首批五个试点郊野公园之一。本次嘉北郊野公园信息化项目,旨在为用户打造一个可持续发展的智能化的多产业融合信息平台,在满足游客游览的服务需求、公园建设、运营管理发展的信息化需求的同时,充分考虑到嘉北郊野公园未来几年的核心需求和发展趋势,做到信息化建设交付成果与用户发展要求相适应。
夏日,酷热难熬,一浪浪的热气直往人身上涌。心里烦躁,直嚷嚷城里的夏天让人受罪。恰在这时,母亲打来电话,说她熬了绿豆汤,让我们过去喝。心里顿觉一爽,许多日常生活中必须的东西,自己
自驾游时,由于时间有限且旅游景点较多,因此游客要想在最短的时间内游览更多的景点,就需要预先规划好外出旅游的最优路径。目前常用的地图导航软件一般只提供从游客位置到单
移动互联网技术、云计算技术、无联网技术在可预计的将来必定会成为网络数字化中的重要主体,会促进数据业务不断的发展。而且网络主体也一定会随着业务的类型改变而发生改变。
地铁是城市公共交通的重要组成部分,对于城市交通问题解决有显著的效果,所以重视地铁的规划和建设,强调地铁的有效利用有突出的现实价值。对现阶段的城市地铁做应用分析发现
本文讨论了采用一步超声法制备雷帕霉素纳米脂质体的过程,此方法制备的过程较传统方法简单,得到的纳米脂质体粒径小,分布小,产率高,整个制备工艺都是在水溶液体系中进行,环境
在我国大力发展通用航空政策下,我院积极响应号召,引进DA42NG型飞机,至今已运行接近一年,从最初的完全陌生到现在的基本正常运行,中间经历了许多的困难,也走了许多的弯路。现
电气自动化虽可以提升输配电网运行效率,但会产生谐波与负序问题等问题,因此需要加强输配电网无功补偿技术的应用与优化。基于此,本文以无功补偿技术概述为开篇,重点分析其在