基于子图聚簇的同异步自适应大图迭代计算的研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:hlg1205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和物联网技术的飞速发展,大量数据信息以爆炸模式增长,“大数据时代”成为了人们对于当前信息社会最有力的概括。因此,大数据的高效管理和有效分析处理是当前工业和学术界研究的重点问题。图作为一种基本数据结构可以表达复杂的结构和丰富的语义,图处理尤其是大规模图处理,已经成为一个大数据处理中热门的研究领域。目前基于BSP模型的大规模图处理系统存在以顶点为中心的同步计算和以图为中心的异步计算两种处理机制,由于这两种处理机制都存在局限性,而且都对图数据的初始划分有一定的依赖,图划分本身也是一个NP-Hard问题,因此,如何能够减少作业计算效率对于图划分的依赖,并能够根据实际情况自适应地选择迭代计算方式成为了一个重要的研究课题。本文提出了基于子图聚簇的同异步自适应的大规模图迭代处理机制,使得对于图的迭代计算同时支持以顶点为中心和以图为中心处理机制。本文首先在各个任务完成数据加载和划分后添加了输入图评价机制,根据评价结果对作业的初始处理机制进行选择,定义顶点的归属度,同时建立各个计算分区的不稳定顶点列表,作为备选迁移顶点的索引。其次,设计了高效的基于子图聚簇的顶点迁移机制,根据输入图评价的结果和系统计算过程中的信息设定顶点迁移的相关参数,保证顶点的迁移能够有效地起到减少分区之间交互边的效果,并设计了全局路由表更新策略,保证迁移的顶点能够立即参与到后续的计算中来,使得顶点迁移过程对于整体计算的影响尽可能的低。此外,在现有的图处理系统中实现了同时支持以顶点为中心和以图为中心处理机制的计算框架,并设计实现了同异步自适应的计算模型切换功能。最后,将提出的相关技术集成到BC-BSP系统之中,设计了相关编程API供用户使用。实验结果表明,本文设计并实现的大规模图处理系统取得了预期的效果。通过与原系统进行图连通分量查找算法实验对比,证明了系统在计算效率上的得到有效地提高,同时在迭代次数和通信代价消耗方面都有一定的改进。
其他文献
探索式搜索描述了用户对自己想要搜索的目标领域不熟悉,或者用户进行比较复杂的搜索任务时的行为。用户在进行探索式搜索过程中,有时会发现,通过其他算法给出的查询推荐,找不
当前,POI(Point of Interest)推荐技术已经在基于 LBS(Location-Based Service)的移动导航系统中广泛应用。它实时感知用户当前的位置信息,利用用户即时给出的偏好集或者历史
随着网络技术的飞速发展,我国的互联网规模越来越大,其中IP地址的流量行为也越来越复杂,如何对IP地址的流量行为进行效的观测与描述成为了各研究机构的关注热点。目前针对IP
成册文档是指装订成册的书目、资料等印刷材料。成册图像的扫描是通过人工翻页并由摄像机进行采集。在成册图像扫描过程中,由于文档的摆放位置的不同可能会造成的文档图像倾
近年来,随着人们生活水平的提高,对海产品的需求量增大,工厂化循环水养殖蓬勃发展。在循环水养殖中,多采用生物方法去除有机物和氮盐等有害物质,其中生物膜法因其具有高效的微生态系统和强抗冲击能力等诸多优势而获得广泛应用,移动床生物滤器(MBBR)是循环水养殖系统水处理过程中的核心单元。地下海水水质良好且供水稳定,是我国海水工厂化养殖的重要水源之一,由于地下水还原性强,且具有较低的p H,使得地下水铁锰离
序列挖掘一直为数据挖掘中一个非常重要的分支,从Agrawal和Srikant在1995提出序列的概念之后,越来越多的学者投入到这个课题的研究。随着数据挖掘相关技术的发展,数据挖掘将
随着网络的应用越来越普及,人们对网络的研究也越来越深入,所以各种新型网络技术相继被研发。向量网就是在该背景下被研发出的新型网络架构之一,相比于其他的网络,它在可扩展
随着嵌入式系统复杂性的提高,越来越多系统设计者开始使用基于模型的开发环境进行系统设计。MATLAB/Simulink/Stateflow套件作为应用最广泛的基于模型的开发环境之一,被大量
在计算机领域中,基于通用指令集硬件架构的虚拟化技术极大地推动了云计算等新兴产业的发展。参考这种思路,在互联网领域中,为了克服网络结构越来越“僵化”,网络流量越来越爆
随着互联网的快速发展,多媒体业务占据了现有网络的大部分流量,而以IP地址为核心实现端到端通信的现有网络架构在传输以内容分发为主的业务时面临着冗余传输、安全性等一系列