基于Spark的子图匹配算法研究与实现

来源 :北京交通大学 | 被引量 : 11次 | 上传用户：czliao

【摘要】

：

图作为一种由顶点和边构成的数据结构,能够简洁有力的表达事物之间的联系。随着大数据时代的到来,数据的规模以前所未有的速度增长着,Facebook、Twitter、微博等社交媒体每天

【作者】

：

郭腾

【出处】

：

北京交通大学

【发表日期】

：

2017年01期

【关键词】

：

Spark 子图匹配图挖掘并行算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图作为一种由顶点和边构成的数据结构,能够简洁有力的表达事物之间的联系。随着大数据时代的到来,数据的规模以前所未有的速度增长着,Facebook、Twitter、微博等社交媒体每天都产生大量的社交图数据。如何处理如此大规模的图数据成为目前研究的热点。其中,子图匹配问题又是图数据处理领域中最为重要的问题,图的搜索,模式匹配等算法都需要子图匹配算法的支持。子图匹配的数学基础是图论中的经典问题子图同构,一个著名的NP完全问题。目前,虽然有一些学者给出了一些方法来实现子图匹配,但是这些方法只能处理小规模的图数据,在应对如今大规模的数据时,其匹配效率与可扩展性都有很大不足。另外,多数子图匹配算法应用于无向图,在有向图的应用上存在着不适用或效率低下的问题。针对以上问题。本文依托近些年来兴起的大数据平台,利用其提供强大的存储与计算能力,研究并实现了以大数据处理平台Spark作为处理引擎,应用GraphX组件处理超大规模图数据的子图匹配算法。该算法以HDFS为存储平台,有效解决了集群负载均衡问题;计算过程分为分布式过滤阶段与分布式验证阶段。分布式过滤阶段充分考虑Spark平台特性与GraphX以顶点为分割的图分割策略,提出顶点签名数据结构,通过并行比对顶点签名的方式实现对数据图快速高效过滤。其中,顶点签名中表达了自身与邻域信息,邻域中又区分父邻域与子邻域,提升了对有向图的过滤效果。分布式验证阶段利用Spark平台分布式计算优势,提出候选子图匹配区域概念,通过对查询图中心点的计算,在数据图中得到多个与查询图规模相当的候选子图匹配区域,将经过过滤的超大规模图数据进一步进行分割,在更小规模候选子图匹配区域中执行高效子图匹配操作。最后,通过实验表明,本文分布式子图过匹配算法具有很好的匹配效率与可扩展能力,在与目前优秀子图匹配算法VF2的对比实验中,本文算法具有很好的执行效率优势。

其他文献

心理咨询与治疗的三大流派

精神分析取向强调来访者潜意识冲突的意识化。认知—行为取向注重来访者行为和认知模式的改变。存在—人本主义取向强调协助来访者自我潜能的实现和发挥。$$在心理咨询与治疗

报纸

抗核糖体P蛋白抗体的检测及其与系统性红斑狼疮的相关性研究

期刊

系统性红斑狼疮北京协和医院风湿免疫科核糖体相关性研究

信息共享空间理念下图书馆面向企业延伸服务的平台设计与实现

延伸服务是21世纪高校图书馆服务创新的趋势之一。文章将信息共享空间理念融入到高校图书馆延伸服务中，使服务内涵得到了极大拓展，在信息资源、网络技术、硬件设备和图书馆员的

期刊

延伸服务信息共享空间高校图书馆extension service information commons college library

十九大以来关于实施“乡村振兴战略”若干问题研究述评

党的十九大报告首次提出了实施乡村振兴战略。作为新时代推动乡村全面振兴的重大战略决策,一段时期以来,国内学术界对乡村振兴战略的科学内涵和战略定位、逻辑关系、保障机制

期刊

乡村振兴战略新时代乡村治理述评

广东大亚湾核电站厂用电力系统可靠性分析

运用故障树分析方法，对广东大亚湾核电站（ＧＮＰＰ）厂用电力系统的可靠性作了分析。建造了电力系统６．６ｋＶ交流应急母线（ＬＨＡ）、２２０Ｖ交流不间断电源母线（ＬＮＥ）和１２５Ｖ直流电源母线（ＬＢＡ）的失电故障树。利用ＳＥＴＳ程序及法国标准９００ＭＷ压

期刊

电力系统可靠性故障树顶事件最小割集

Ⅱ型糖尿病合并慢性牙周炎进行牙周基础治疗的效果

目的:探讨在基线水平基础上进行牙周基础治疗对牙周参数和血糖水平的影响。方法:随机选取Ⅱ型糖尿病合并慢性牙周炎患者50例,所有患者在基线水平和牙周基础治疗后12周观察牙

期刊

Ⅱ型糖尿病慢性牙周炎牙周基础治疗

配电网电力工程的技术问题分析与施工安全措施

近些年以来,与人们生活息息相关的配电网电力工程的施工情况受到了城镇居民的密切关注。文章主要从配电网电力工程的技术问题进行分析,提出解决配电网电力工程技术问题的对策

期刊

配电网电力工程雷击事故安全施工

试谈建设高校节约型图书馆

从文献资源的利用、图书馆建筑设施的利用、人力资源的利用等三个主要方面入手,剖析产生浪费和效益低下的原因,并提出解决问题的对策.

期刊

高校图书馆节约型图书馆对策university librarythe thrifty type of library countermeasure

购入原材料发生短缺与毁损的账务处理

本文主要探讨了原材料在实际成本法和计划成本法两种不同的计价方法下,购入原材料如果发生短缺与毁损,如何进行账务处理。通过对同一案例的解析进一步明确了不同方法的特点、

期刊

原材料短缺实际成本法计划成本法

针织服装的发展趋势

<正>★针织服装外衣化目前,针织服装业正在进入一个多功能、时尚化的阶段,针织外衣是发展中一个新的增长点。针织服装质地柔软、吸湿透气性能好,具有优良的弹性与延伸性,能满

期刊

针织服装针织外衣人体曲线吸湿透气性

基于Spark的子图匹配算法研究与实现

其他学术论文