基于Spark的快速属性图聚集技术在引文网络中的应用

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:tanxiaoxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代的高速发展,带来的不仅是人们生活和经济的变化,还有这一系列互联网应用背后日益增加的数据量。图作为一种强大的数据建模形式,在海量数据中占据着重要地位。随着图数据规模的扩大和人们对于海量数据价值潜力的重视,图聚集技术应运而生。图聚集技术主要是针对大规模的图数据,将原始图数据中的顶点和边进行压缩集合,使其抽象到更高层次,获得一个能充分代表原图的粗粒度超图,以达到节省存储空间、实现模糊查询、解决隐私保护问题等目的。近年来,论文引用网络领域飞速成长,各类文献著作大量涌现,论文数据呈爆炸式增长,致使引文网络图规模不断扩大,而当下对于引文网络的研究主要侧重于对其的分析预测以及可视化方面,对于图聚集技术方面的研究较少,且传统图聚集技术大多都是基于“小图”的聚集,基于此现状,本文针对引文网络本身的数据特点,引入AS(Aggregation Sharing)算法中先共享再聚集的思想,借助Spark平台下GraphX的并行处理优势,以DBLP引文网络中的数据集为实例,实现了快速属性图聚集技术在引文网络中的应用。本文首先介绍了课题的背景以及该课题在当下的研究意义。与此同时,对当下的图聚集技术以及引文网络的研究现状进行整体的概括和整理,包括图聚集技术的几种类型和各类型当下的研究情况,以及当下基于引文网络研究的几个方向。其次对图聚集技术、引文网络以及Spark开发平台的基本概念和特点进行了一定的介绍及探讨,为研究者深入了解该技术提供一定的帮助。接下来对根据AS算法构建图聚集技术流程所需的步骤进行一定的梳理和分析:先是采用影响力较高的论文结点作为桩结点,并基于此提出了入度计算和PageRank两种桩结点的选取方法;接着是针对大图的子图抽取提出了基于可达性索引和基于Spark并行计算的两种快速抽取的方式;然后进一步说明无共享聚集计划以及共享聚集计划的思想以及优化。接下来便是将该聚集技术在引文网络中的应用实现分为基于PageRank的桩结点选取的实现、基于位图法的子图抽取的实现以及无共享聚集技术和基于聚簇的共享聚集技术实现几大模块来进行。最后,根据算法的应用实现来进行实验,验证算法的有效性。该聚集技术采用的共享式聚集,结合了引文网络自身的特点,让其交叉部分以预聚集的形式来共享,同时结合Spark开发平台,加快运行速度的同时降低聚集的计算次数,以达到快速聚集的效果。
其他文献
作为基础设施与公共服务供给的一种创新方式,PPP模式通过在政府与私营部门之间进行平等合作、优势互补,有效地推动了城市的经济发展。然而由于PPP项目中政府与私营部门双方的
随着化石资源的日益匮乏和人们对能源需求量的增加,人们不断地探寻清洁可再生无污染的新能源,太阳能在众多替代能源中脱颖而出。在众多太阳能电池类型中,钙钛矿太阳能电池(PS
微流控是精确操控极微量体积流体的技术,广泛应用于化学合成、生物分析、环境监测等领域。本论文以同轴环管型微通道内液—液体系为研究对象,针对流体分散机理进行了系统的研
儿茶素是一种天然植物抗氧化剂,它具有广泛的生物、药理和抗氧化活性。儿茶素可以作为绿色制备金属和氧化物纳米复合材料的还原剂和稳定剂,具有既安全又环保的优势。本论文中
作为金属矿山地下采场运输矿石的主要通道,溜井的作用极其重要,被喻为井下运输矿石的咽喉。因其具有通过能力大、运输速度快、运输成本低等优点,所以在国内外矿山获得广泛应
近年来,硅基材料因其超高的理论比容量(3752 m Ah g-1),来源广泛及环境友好而受到科研工作者的广泛关注,被认为是最有发展前景的新一代锂离子电池负极材料。然而,硅在脱嵌锂
随着我国老龄化进程的加快,老年人人口数量和比重逐年增加,老年人的健康问题成为研究热点,其中跌倒是造成老年人受伤甚至死亡的常见因素之一。跌倒的发生与身体平衡控制能力
鲁奇炉、低温煤干馏、煤分级提质等煤处理过程会产生大量高浓度含酚废水,包括苯酚、甲酚、二元酚、二甲基苯酚等,而其中二甲基苯酚的含量相对较少,但总量仍达几百ppm。使用常
随着“互联网+”理念的普及,越来越多的行业将自己的传统业务与互联网相结合,在这样的背景下,互联网金融应运而生。P2P网络借贷作为互联网普惠金融的典型代表之一,经过十多年的快速发展,在我国互联网金融市场上的占比越来越重。因此研究P2P网络借贷对消费者投资决策、P2P网络借贷平台经营管理以及政府完善P2P监管政策都具有理论意义与实践意义。近年来,随着互联网技术的发展,搜索引擎服务也越来愈完善,80%的
传统的网络爬虫是获取互联网数据的基本手段,然而随着万维网信息的爆炸式增长,传统网络爬虫所获取数据中的很大一部分对于用户来说是无用的;因此,如何返回更多有用数据得到了