论文部分内容阅读
随着信息技术的飞速发展,网页检索、社交网络、生物信息科学等领域所涉及的图论知识和算法得到了广泛应用和发展。自然生成的图数据规模呈现了爆炸式的增长,让分布式图计算这一领域成为了学术界和工业界的热门研究方向。而对于大规模图数据进行合理的划分与存储,能够减少机器节点间的通信量,是提升分布式图计算性能的研究热点之一。此外,分布式图计算系统在实现分布式计算模型时的实现方式,往往会存在着冗余计算或冗余通信的问题。因此,分布式计算模型的优化及实现,也是分布式图计算系统性能优化的关键性问题。本文深入研究了分布式图数据划分和分布式图计算模型,探讨了分布式图计算系统性能优化技术,重点围绕基于拓扑重构的分布式图分割算法和基于增量变化的GAS分布式计算模型展开了深入研究。本文的主要研究工作包括:一、深入研究并分析了分布式图计算已有的图数据划分算法,在分析其研究成果的优势时,也揭示了其各自的局限性;深入分析了现有的分布式图计算模型及其在实际分布式图计算系统的实现,发现其存在的优点和需要改进的方向。二、针对大规模图计算的低效分区问题,提出了基于拓扑重构的分布式图分割算法。通过对自然生成的图数据进行分析发现,自然图的顶点度数存在分布的不均匀性,这往往导致了大规模图计算的低效分区,使得各个机器节点出现计算负载不均、机器节点间通信开销过大等问题出现。基于拓扑重构的分布式图分割算法能够有效利用图的拓扑信息的方法,可以在分区之前将不平衡图(幂律分布图)转换为更平衡的拓扑结构。具体而言,我们对合并到超顶点的一组(邻近)低度顶点执行聚变操作,并且在被分割的高度顶点上执行裂变使之成为一组子顶点,这样让所有顶点涉及的计算被划分的更为均匀。重构得到的结果可以通过超顶点和子顶点的均匀分配给所有的计算机器节点来进行分区,来进一步提高分布机器节点的计算负载均衡。三、针对现有分布式图计算模型GAS在实际实现时产生的冗余计算与冗余通信问题,提出了基于增量变化的GAS分布式计算模型。通过分析标准GAS模型,及其在PowerGraph上实现的分布式计算过程,发现标准GAS模型在分布式计算过程中在计算和通信过程中会产生冗余开销,我们利用每个顶点每次迭代运算相比前一次迭代运算产生的增量作为传输数据,代替顶点更新数据及激活信息,有效减少运算过程和冗余通信开销。同时对于多维数据,在采用拓扑重构和多维分割集成的图分割算法前提下,优化GAS模型,提供层间通信,保证层间数据的交互与汇总,有效提升分布式图计算系统的效率。四、基于所提出的大规模图数据划分算法和分布式图计算模型的优化,本文在PowerGraph分布式图计算系统基础上实现了一个高效的分布式图计算原型系统TopoX,并通过大量实验验证了TopoX的性能优势。