大图数据启发式划分与管理及在BC-BSP系统中的应用研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:readbookmen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的高速发展,图数据变的越来越大,如facebook、微博、人人网等社交网络及创新基因序列等。传统的图处理系统在处理这些基于大数据集上的计算时都存在明显的短板,因此,急需开发一种高效、稳定的处理系统用于海量图数据的计算。图数据划分是基于BSP编程模型的大规模图处理系统需要解决的重要问题之一。特别在云计算环境下,由于数据规模过大,更需要将图数据划分为多个分区,交由集群中的计算节点并行处理。然而,现有的图划分方法大多需要多次迭代,时间复杂度过高,且结果不保留顶点到分区的映射,并不适用于BSP模型下的图数据划分。此外,在实际应用中,由于图数据基本固定,重复进行图划分操作降低了系统运行效率。因此,如何实现快速的划分以及如何进行划分管理,具有极大的挑战。为此,项目组基于BSP模型、借鉴云计算编程模型Hadook,开发了可进行大图计算的图处理系统BC-BSP。本文主要设计并实现系统的数据划分模块下的数据划分算法。主要贡献如下:(1)设计基于启发式规则的划分算法DHP和C-DHP。在这两种算法中引入了顶点收益的概念。前者引入了虚拟桶的概念,两次应用顶点收益策略,达到保留原数据局部拓扑性的效果。后者对其进行了优化:首先对图数据进行聚类,再使用顶点放置收益策略进行划分,最后进行在线合并。(2)实现分区管理,为后续合并和计算打下基础。(3)设计实现了在线合并算法,并实现了分区的一次划分多次使用。在BC-BSP系统启动时获取本次作业的任务数,并将分区进行在线合并,达到一次划分、多次使用的目的。(4)通过改写InputFormat类,将上述算法集成到BC-BSP系统中,实现了将多个文件作为一个分片输入。将本文提出的数据划分算法和一次划分多次使用的思想应用于BC-BSP系统中,通过实验证明,其完成了BC-BSP系统中图划分模块的功能,具有良好的可扩展性和稳定性。实验表明C-DHP算法交互边比Hash算法减少25%以上,作业运行时间比Hash算法快40%左右。
其他文献
随着的下一代操作系统Vista的发布,Microsoft推出了一系列新的技术和标准。其中的一个就是被称作XPS(XML Paper Specification)的全新的电子文档技术。XPS是微软新一代基于XM
随着计算机网络和全球信息化的不断发展,计算机网络信息安全随之成为一个重要的问题。因此,需要一种能及时发现入侵,成功阻止入侵的网络安全技术,这就是入侵检测技术。本文首先介
无线局域网随处可见,已经成为我们生活的一部分,但无线网络安全空间仍然乌云密布。2013年的“棱镜门”事件已经持续发酵了一年多,这让人民震惊,开始重视个人网络的安全问题。
目前因特网发展出现瓶颈的原因之一是由于没有赋予网络上的全部资源足够的语义信息。最主要的原因在于,现在的网络主要是基于超链接实现的,网络只是知道如何显示资源,却不清
本文在进行彩色图像文本定位与提取时采用基于边缘的方法。 首先,对彩色图像进行增强处理,提出了一种改进的矢量中值滤波算法;通过将Prewitt边缘检测算子在彩色空间上进行扩
随着我国高等教育的普及高校的扩招,造成如今高校毕业生就业形势逐渐严峻。当前对高校毕业生的就业状况分析较为简单,大多仅仅按学校就业率和专业就业率进行评价,显得片面缺乏科
随着互联网等现代信息技术的飞速发展,人们必须面对海量的信息,如何对这些信息进行整理、分类和挖掘成为人们日益关心的话题。聚类分析技术作为一种信息处理手段近些年来一直
本文来源于某省电力公司商业智能(Business Intelligence)项目的一部分,其内容是利用数据仓库技术建立电力经营分析系统。经营分析系统的建设目标是建立一个统一的数据平台,采
计算机辅助诊断冠心病是医学和计算机领域联合研究的热点问题,冠心病病例作为数据的一种,其内部存在着大量的隐含信息。数据挖掘正是研究如何从数据中寻找这些隐含的信息,并
本文从单帧分割、多帧差分割方面对视频对象分割算法进行了深入、充分的研究并在此基础上进行了快速的人脸定位与检测。 首先,在单帧空域分割方面,针对传统分水岭变换对噪声