论文部分内容阅读
互联网时代的高速发展,带来的不仅是人们生活和经济的变化,还有这一系列互联网应用背后日益增加的数据量。图作为一种强大的数据建模形式,在海量数据中占据着重要地位。随着图数据规模的扩大和人们对于海量数据价值潜力的重视,图聚集技术应运而生。图聚集技术主要是针对大规模的图数据,将原始图数据中的顶点和边进行压缩集合,使其抽象到更高层次,获得一个能充分代表原图的粗粒度超图,以达到节省存储空间、实现模糊查询、解决隐私保护问题等目的。近年来,论文引用网络领域飞速成长,各类文献著作大量涌现,论文数据呈爆炸式增长,致使引文网络图规模不断扩大,而当下对于引文网络的研究主要侧重于对其的分析预测以及可视化方面,对于图聚集技术方面的研究较少,且传统图聚集技术大多都是基于“小图”的聚集,基于此现状,本文针对引文网络本身的数据特点,引入AS(Aggregation Sharing)算法中先共享再聚集的思想,借助Spark平台下GraphX的并行处理优势,以DBLP引文网络中的数据集为实例,实现了快速属性图聚集技术在引文网络中的应用。本文首先介绍了课题的背景以及该课题在当下的研究意义。与此同时,对当下的图聚集技术以及引文网络的研究现状进行整体的概括和整理,包括图聚集技术的几种类型和各类型当下的研究情况,以及当下基于引文网络研究的几个方向。其次对图聚集技术、引文网络以及Spark开发平台的基本概念和特点进行了一定的介绍及探讨,为研究者深入了解该技术提供一定的帮助。接下来对根据AS算法构建图聚集技术流程所需的步骤进行一定的梳理和分析:先是采用影响力较高的论文结点作为桩结点,并基于此提出了入度计算和PageRank两种桩结点的选取方法;接着是针对大图的子图抽取提出了基于可达性索引和基于Spark并行计算的两种快速抽取的方式;然后进一步说明无共享聚集计划以及共享聚集计划的思想以及优化。接下来便是将该聚集技术在引文网络中的应用实现分为基于PageRank的桩结点选取的实现、基于位图法的子图抽取的实现以及无共享聚集技术和基于聚簇的共享聚集技术实现几大模块来进行。最后,根据算法的应用实现来进行实验,验证算法的有效性。该聚集技术采用的共享式聚集,结合了引文网络自身的特点,让其交叉部分以预聚集的形式来共享,同时结合Spark开发平台,加快运行速度的同时降低聚集的计算次数,以达到快速聚集的效果。