基于FP-tree和MapReduce的集合相似性连接

来源 :深圳大学 | 被引量 : 0次 | 上传用户:HongJuZhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集合相似性连接从两个集合合集中找出相似度大于给定阈值的集合对,是大数据分析的重要操作,有着广泛的应用,如发现抄袭的文章、检测近似重复的网页、清洗数据等。许多数据集都可以表示成集合合集的形式,如文章数据集可以表示成字符串组成的集合合集。本文在度量两个集合的相似度时用的是基于同时出现在两个集合中元素个数的Jaccard函数。随着大数据,云计算技术的不断发展,数据正以一个爆炸式的速度增长,这给集合相似性连接问题提出了新的挑战。面对海量的数据,如何快速的挖掘,分析并获得有价值的信息,已经成为了一个必要的需求。而MapReduce作为一个分布式计算编程框架,因为其易编程,拓展性好等特性而广受关注。许多研究者提出了基于MapReduce的集合相似性连接算法,从而可以处理海量的数据。其中,采用先过滤后验证集合相似度连接算法取得了较好的结果,这类算法大体上可划分为两大类:(1)集合整体过滤与验证,这类算法加速了计算,但存在同一集合对多次重复验证的现象,效率可进一步提升。(2)集合数据分段过滤与验证。这类算法将集合切分为多段,然后分段过滤与验证。但当阈值较低时,候选集规模比较大,各个计算节点都将度量相应候选集分片中所有集合对的相似度,计算复杂度依然较高。为了解决这些问题,本文设计、实现并评估采用频繁模式树结构(FP-tree)加速基于MapReduce的并行分布式集合相似度连接算法。本文主要包含以下三大方面的贡献:(1)现有的基于FP-tree和MapReduce频繁模式挖掘算法并未考虑阈值,计算复杂度高,无法应对大规模数据集下的集合相似性连接。因此本文提出面向基于MapReduce和FP-tree的集合相似度连接的两阶段过滤规则,减少对树节点的遍历及过滤掉低于阈值的集合对,减少了验证的时空复杂度。(2)针对大规模数据集下FP-tree挖掘时寻址时间长的问题,本文构建遍历效率更高的线性频繁模式树模型(Traversal Efficient LP-tree,简称TELP-tree);有效的减少了挖掘寻址的时间;(3)设计、实现并评估了基于TELP-tree和MapReduce的集合相似度连接算法,基于FP-tree集合相似性连接算法,以及现有算法的性能。实验结果表明本文的算法对比基于FP-tree集合相似性连接算法有20%30%的提升,对比现有先过滤后验证集合相似度连接算法在低阈值的情况下有34倍的提升。
其他文献
随着大数据时代的到来,数据的预处理在数据挖掘任务中的重要性越来越高。在数据挖掘任务中,数据预处理通常需要花费整个任务的近百分之六十的时间。数据变换是数据预处理过程中的关键步骤之一,数据变换将数据从一种表示形式转换为另一种形式,进而提高聚类和分类算法的性能。本文提出了一种基于1/2相似度偏离的数据变换方法,本文主要包括以下两部分:提出一种新的数据变换方法:权重矩阵学习方法(Weight-matrix
近年来,越来越多的组织将收集到的数据,以RDF模型组织后开放给公众,供人们从中检索感兴趣的内容,获取有价值的信息。通常人们可使用SPARQL这类结构化查询语言访问和操作RDF数据,但由于需要用户熟悉语言语法,了解数据集的内部结构,导致这类语言的使用仅限于专业人士,而关键词检索只需用户输入一组关键词,最终就能返回一些小的包含所有查询关键词的RDF子图,相比结构化的查询语言,极大的降低了对用户的要求。
在新课改的标准下,初中道德与法治课程对学生的培养要求有着翻天覆地的变化,从传统教学模式中过度关注学生对学科知识的掌握,逐步转移到对学生各方面综合素质的培养,尤其是关注学生科学精神在政治教学课程当中的培养情况。所以,这对于初中道德与法治教师的课堂构建也提出了相应的教学要求,需要初中道德与法治教师才最有效的教学策略来完成对学生科学精神的有效培育,结合相应的教学实践措施来帮助学生将所学知识内化为意识当中
区块链存储系统采用分布式基础架构,将全球大量的存储节点构建成一个规模巨大的、全球统一的、共享的存储池向用户提供数据存取服务。在提供存储服务时将用户的数据分散在全球不同的节点中。存储节点通常使用键值(key-value,K-V)存储来管理数据,以固态硬盘作为存储介质。日志结构合并树(Log Structured Merge Tree,LSM-Tree)作为键值存储中最常见的数据结构,通过将随机写入转
随着近几年互联网用户数量和视频数量的增长,视频传输流量成为互联网的流量的主要组成部分。在有限的带宽资源下,满足视频传输的服务质量成为一个挑战。在靠近用户的边缘服务器上缓存视频是减少骨干流量和提高视频传输性能的一个有效方法。然而,现有的工作没有能够有效的解决以下两个问题。第一,视频的流行度变化是动态的,即使是最受欢迎的视频热度也只能持续几个小时。第二,边缘服务器的视频更新成本没有得到适当的考虑。为了
当社交网络群组交互成为新的运营模式后,对于群组内用户之间的影响关系的研究变得尤为热门。尽管在线社交网络和社交媒体可以让用户很直观地看到用户之间的关注关系,但每个用户只可能知道其邻居用户的少部分好友,无法轻易掌握整个网络结构,并且无法直观的获得关注程度的强弱。因此必须有方法来推断群组内用户之间影响关系,从而进行群组内精准的好友推荐服务或者其它个性化服务。越来越多的用户关系研究旨在增强在线社区用户忠诚
随着物联网无线通信技术的发展,各种无线设备得到广泛应用,无线设备所占用的频谱资源也越来越拥挤,除此之外,各种无线设备的接入安全问题,以及不法分子利用无线设备对个人隐私和公共安全所带来的威胁也不容小觑。因此,如何有效地对无线设备进行识别以及定位有着十分重要的意义。大多数无线设备的识别研究都是利用小波变换、傅里叶变换和机器学习等方法对已知协议的单一设备进行识别。但是,这些工作中研究的设备种类的多样性不
随着信息技术的发展,实时的信息传播大大提高了科研工作者成果发布与分享的效率。然而,学出版商对学术文献的垄断造成了诸多弊端,如文献出版付费、文献质量由少数人把关、文献付费查阅等。为了消除学术壁垒,许多高校和科研机构联合发起了免费开放获取(Free Open Access)运动,随之全球范围涌现出越来越多的论文免费存取数据库。由于此类中心化数据库的资源存储成本高,效率低、数据存储存在安全隐患、论文版权
随着人们生活方式的改变,各种电子产品已经渗透到生活的方方面面,各种不健康的用眼习惯及眼睛过度疲劳造成越来越多的眼部疾病患者。视力是人们获取外界信息的重要途径,一旦致盲,不可逆转,严重影响了人们的生活。各种眼部疾病会对眼底结构造成不同程度的改变,眼底图像是医生诊断眼部疾病最直接和有效的依据,因此进行眼底图像分析对眼部疾病的辅助诊断具有重要意义。眼底图像增强与分割是眼底图像分析的先决条件,也是图像处理
波导缝隙天线由于具有稳固的结构、低损耗和高功率承受能力等优点而被广泛应用于雷达探测、船舰导航等系统中。本文首先介绍了基于矩形波导和圆柱波导的波导缝隙天线的发展历史和研究现状,梳理了它们的优劣,然后阐述了缝隙天线的理论基础与辐射原理,在此基础上提出了一种基于球形谐振腔的缝隙天线的设计方法。本文的主要研究内容及创新点如下:1、研究了球形谐振腔在本征求解下模式的电磁场分布、谐振频率以及表面电流分布等特性