【摘 要】
:
网络图是指由网页及网页之间的链接关系组成的图,通过研究网页间的链接关系,抽取有用的信息,多用于爬虫算法,搜索和社区发现等方面。但在应用网络图时,最主要的问题是网络图
论文部分内容阅读
网络图是指由网页及网页之间的链接关系组成的图,通过研究网页间的链接关系,抽取有用的信息,多用于爬虫算法,搜索和社区发现等方面。但在应用网络图时,最主要的问题是网络图的大小,如果网络图记录了整个网络,将包含几百亿的网页,如此巨大的网络图在当前存储现状下,不可能全部放入内存进行处理。本文主要研究大规模网络图的压缩表示方法,在k2-tree算法的基础上应用基于分层的方法,改善了矩阵分割的局限性,同时针对分层算法,实现了基于MapReduce模型的并行化改造。首先,对已有的网络图压缩表示算法及网络图自身的统计特性进行了详细的阐述。针对k2-tree网络图压缩表示算法,分析了矩阵分割对于空间占用和查询时间的影响,同时结合网络图本身的分布规律,验证了基于分层的方法有效性,分层方法改善了上层结构和底层节点分割时过于单一的情况,使算法在压缩率和查询效率方面获得了更好的平衡,在保证空间占用的情况下,获得了更好的查询速度。其次,在应用分层算法的基础上,针对网页数量过于庞大的情况,本文实现了基于MapReduce编程模型对Layer-Based-k2-tree压缩表示算法的并行化改造。面对大规模的网络图数据,并行算法依然可以在可行的时间内进行压缩表示的构造,提高了算法的运行效率。最后,通过在不同公开数据集上的实验对比,验证了基于分层方法的有效性。实验数据表明,在保证一定压缩率的前提下,基于分层的方法获得了更快的查询速度;在不同分层区间下,变化曲线呈现一定规律性,使算法在空间和时间上获得了更好的平衡。于此同时,针对不同数据集,进行了在多核计算机上的并行构造实验,验证了并行算法的可行性,对比串行计算过程,获得了最高9.7的加速比。
其他文献
目前中国的公路三维空间位置表示方法基本都还是采用CAD将公路的平面和横纵断面进行二维设计的传统方式来完成路线的整体设计。这样的设计方式虽然可以将复杂的公路设计问题
近年来,云计算模式的势头愈演愈烈,其理念在制造业逐步兴起,很多计算机服务中心,把资源虚拟化为服务,并集中起来建立云服务平台。云制造的概念也应运而生。大量服务的聚集在
铁路扣件检测是维护铁路行车安全的重要任务。在高速铁路快速发展的历史背景下,铁路维护与铁路安全运营变得越来越重要,作为铁路维护的子任务,扣件自动化检测成为越来越重要
科研项目管理是高等院校与科研机构的重要管理工作内容之一。由于科研工作的特质,科研项目的管理具有较大的不确定性和变动性,一般的工作流管理模式还不能完全适应科研项目动
图像分割是图像处理和分析中的重要过程,它的输出结果直接影响着后续的处理效果.基于图论的图像分割算法由于有比较完备的数学理论基础,最近获得了广泛研究.Normalized Cut是
云计算已经成为一种崭新的IT模式,用户能够方便地通过网络按需访问可配置的计算资源。数据中心为信息服务提供运行平台,高效的云计算平台将数据中心底层的硬件资源进行虚拟化,通
随着信息时代的发展,Web应用正朝着多用户多角色协同的方向发展。在协同Web开发以及使用过程中存在异常,异常的出现不仅降低用户满意度,而且增加开发维护人员维护系统的难度
射频识别RFID(Radio Frequency Identification)是一种利用无线射频信号进行通信的非接触自动识别技术,它具有快速高效、可靠和不需要物理接触等优点,目前广泛应用于动物识别
在单核处理器时代,随着大规模集成电路技术和半导体技术的快速发展,处理器的频率和集成度的不断提高,这不但使得单芯片单核处理器的功耗剧增,而且使得其设计更加复杂。近年来
RoboCup,机器人足球世界杯,是一个国际性的综合赛事,其中的2D项目提出了一个复杂的实时多主体环境下的智能体决策问题。当前人工智能正处在由“单主体静态可预测环境中的问题