云计算环境下的模式挖掘算法研究

被引量 : 0次 | 上传用户:hzxj1817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,各行各业正在产生越来越多的数据,人类社会进入了一个大数据时代。为了让数据真正产生价值,必须研究如何高效的从大数据中挖掘出有价值的信息。模式挖掘作为数据挖掘的一个分支,用来帮助人们从海量数据中发现有价值的规律,被广泛应用于各种场景,因此得到越来越多研究人员的关注。传统模式挖掘算法大多只适用于在单机上运行。当所处理的数据量很大时,由于受限于物理内存等因素,挖掘效率很低,因此不适用于处理大数据。云计算作为一种新型的计算模式,专门用于处理大数据。通过借助云计算模式下已有的并行计算模型将挖掘算法并行化,可以利用大规模的物理集群并行处理大数据。MapReduce是云计算模式下的一种高效简洁的分布式并行计算模型,在其基础上的许多并行挖掘算法被提出。Spark作为一种更加高效的基于内存的并行计算模型,一定程度上弥补了MapReduce进行迭代式计算的不足,目前发展迅速。本文首先介绍了经典的模式挖掘算法,然后分析了两种并行计算模型MapReduce、Spark的原理,之后,分别借助MapReduce模型和Spark模型提出了并行频繁模式挖掘算法Pamph和并行效用模式挖掘算法Phps。其中,Pamph算法充分利用MapReduce的分布式并行计算模型,采用宽度优先结合深度优先的混合挖掘策略,使用垂直数据格式mixset结合FP-tree结构表示数据,实现了宽度优先挖掘到深度优先挖掘自动转换、宽度优先挖掘和深度优先挖掘并行执行。最终实验表明该算法比已有的基于MapReduce的并行频繁模式挖掘算法DPC、PFP效率高、空间伸缩性好。Phps算法充分利用Spark基于内存的并行计算模型,借助HUIMiner算法中的数据结构UtilityList的变体表示数据,实现了高效用模式的并行挖掘。最终实验表明,该算法比基于MapReduce的效用模式挖掘算法效率高。
其他文献
目的探讨周围型小肺癌的X线和CT影像学表现。方法收集临床和病理证实的早期症状不明显的周围型小肺癌36例,对其影像学表现进行回顾性分析。结果本组36例周围型小肺癌表现为小
目的阐述近年来微乳化技术在中药制剂中的应用进展。方法归纳国内外最新的文献报道,对微乳的制备方法、在中药制剂中的应用及存在问题进行综述。结果由于热力学稳定性及可提
古往今来,亲水是人的天性,临水而居是人类所共有的向往。在现代社会,得天独厚的滨水区域成为人们理想的栖住空间,滨水居住区的开发建设也蔚然成风。滨水区作为最敏感的地区之
《水浒传》中梁山英雄们进行的是一次自发的对上层统治集团的暴力反抗活动 ,不是一场有预先准备、精心组织的农民起义。他们被“逼上梁山”,从个体来看 ,大多并不是由于朝廷
在文献回顾的基础上,通过问卷调查法检验了员工的主动性人格、心理安全感、知识分享能力对创新行为的内在作用机理,研究结果表明:(1)员工的主动性人格、心理安全感和知识分享
近年来,随着古典乐与爵士乐在我国的兴起与发展,萨克斯管以其美妙动人的音色、丰富多变的表现形式赢得了广大听众的喜爱。我国很多音乐艺术院校也相继建立起了萨克斯管专业,
针对普通本科院校学生基础差、学习积极性不高以及理论与实践脱节等情况,以内江师范学院金融建模实践课程为研究对象,提出基于“导学做研”的教学改革方案。该方案从改革的动
苯并咪唑化合物是一类重要的含氮杂环化合物,普遍存在于天然化合物与合成化合物中,是多种药物的活性结构单元。鉴于苯并咪唑化合物其独特的结构特性、反应活性和生理活性等如
近年来,在PC箱梁桥和PC斜拉桥之间出现了一种新的桥梁结构形式,并在若干个国家得以应用。最初提出这种新型桥梁结构形式的法国工程师J.Matlivat将之命名为超配量(extradosed)体
目的研究经踝关节后侧人路显露外、后踝骨折,应用后侧腓骨钢板内固定治疗踝关节骨折脱位(Lauge—Hansen分型)旋后一外旋型Ⅲ、Ⅳ度的疗效。方法2008年1月至2011年12月,对29例踝关