基于MapReduce的图挖掘研究

来源 :贵州师范大学 | 被引量 : 0次 | 上传用户:wgz204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图数据挖掘作为一种重要的数据分析方法,在现实生活中有很多应用。通过图挖掘技术做相关的科学分析可以比较快速的得到有用信息,例如,在化学研究领域中,化学分子具有标准的图结构,而且它有典型的环和链,可以利用图论知识对化学分子结构图数据进行挖掘研究。同样在生物学中,也有基于图挖掘的蛋白质群落算法。在蛋白质的相互作用关系网络中寻找感兴趣的蛋白质群落。在维普这一类的期刊文献库中,也有基于图的文献引用关系挖掘算法的研究。提出用图挖掘解决文献间相似关系的衡量问题,通过以文献为结点构造的图形中的结点和结点之间的相互关系,反映出文献和文献之间的链接关系,并通过被引用的次数多少得到文献的权威度。目前我们在做图数据挖掘算法研究的时候,所用到的图数据规模都不是很大,一般情况下都可以一次性的全部调入内存并运算。然而随着数据规模的不断增加,传统的平台面对这些海量的图数据时,存在诸多的不足,无法保证较高的运行效率。而以Hadoop和MapReduce为代表的技术平台恰好可以解决这些问题。本文通过研究分析基于Apriori思想的三种并行数据挖掘算法CD算法、DD算法和CaD算法以及它们在Hadoop和MapReduce的具体实现。虽然基于MapReduce编程模型实现后,上述三种数据挖掘算法有了一定程度的性能提升,但是上述算法在进行数据挖掘时存在不足,比如在Map实现阶段步骤中,算法在循环迭代进行计算的时候产生了很多不必要的重复键值对和不必要的内存操作,导致处理速度缓慢,不能充分利用MapReduce编程模型的特性,增加了不必要的工作量。本文提出了一种改进的MapReduce_Edge_Extend算法,实现了基于MapReduce编程模型平台下的频繁子图挖掘算法。该算法的主要的思路仍然是基于Apriori思想,在进行边扩展生成新的频繁子图时,利用已经得到的K阶频繁子图生成K+1阶的频繁子图,减少了不必要的重复键值对,提高了数据挖掘的效率。在实验部分,考察上述提到的各种算法分别在传统单机环境和在Hadoop与MapReduce编程平台两种情况下运行实验时的效率对比,可以发现通过Hadoop与MapReduce平台运行时,在保证算法的正确性的基础上,运行时间效率会得到很大程度的提高,改进后的MapReduce_Edge_Extend算法相对运行效率也更高。
其他文献
在油页岩低温干馏生产中,瓦斯组成检测要求越来越高,由于其油、水、尘三相混合,其分离效果直接影响最终结果,现有的采样分析方法,从采样完成到分析需要延迟几个小时,误差较大
在轰烈烈的新课改模式下,如何调动学生积极性。充分发挥学生的主体地位,变“教”为“学”,提高课堂效率,显然是每一位一线教师关心的问题。而学习小组的建设,则是实现新课改,建设高
软岩地基会直接影响工程施工质量,为了能够保障工程质量达标与使用安全,必须要确保软岩地基桩基承载力达到标准,只有基础足够稳固,才能够保证上层建筑的安全。基于此,本文首
为建立分离效率高、增殖快、操作简单且可长期继代的培养羊口疮病毒(ORFV)的原代细胞,从4月龄的羊胚胎中分离培养了羊胚胎鼻甲细胞,利用该细胞进行羊口疮病毒的增殖及其外源
摘 要:功率半导体器件失效其原因主要是热疲劳损伤,对功率器件可靠性进行评估,首先需要评估器件热载荷,功率变流器设计功能满足后需要关注其可靠性,通过性能提升使维护成本降低。本文就风电变流器中功率半导体器件可靠性评估及其改善措施的探究作简要阐述。  关键词:风电变流器 功率半导体 可靠性评估  中图分类号:TM46 文献标识码:A 文章编号:1674-098X(2018)01(c)-0023-02  
分析化学是化学、化工类专业的一门基础化学课,为了引导学生深入了解所学的理论知识,培养学生分析问题和解决问题的能力。本文主要介绍提高本科教学中分析化学教学效果的一些方
随着我国经济的迅速发展和对内河航运需求的不断增长,低标准的船闸已不能满足水运发展的需求,建设大断面通航隧道成为解决这一通航瓶颈问题的可行方法。目前国内外对大断面通
高校图书馆是知识和资源的集聚地,也是培养人才的重要基地。图书馆每天要接待大量的读者,图书馆的管理员直接与学生、老师见面,接触,他们的形象某种程度上图书馆的代表,因此,图书馆
文中设计了一款以STM32F103XE嵌入式系统为核心,将ESP-WROOM-02无线网络模块作为网络接入端,带减速齿轮的直流电机及双门单开结构的料斗为机械驱动结构,以微信小程序为远程控制端的智能家居系统,由此实现对家中宠物按计划定时定量自动投喂、取食反馈等功能。基于μC/OS-II和STem Win搭建本地控制界面,以便同时实现网络远程管理和本地设置计划、覆盖、缓存等功能。实物化后,经过长时间的
以MC9S12XS128单片机作为核心控制单元,设计一种电磁循迹智能车系统。重点阐述硬件电路的设计,包括微型处理器控制模块、电源模块、电磁传感模块、舵机控制模块、电机控制模块、速度检测模块和调试模块。针对电磁循迹智能车系统的特点,分别采用开环控制算法和PID控制算法,实现对舵机和电机的控制。实验结果证明,该智能车系统自主寻迹能力稳定且可靠。