基于Spark平台的大数据挖掘技术研究

来源 :微型电脑应用 | 被引量 : 0次 | 上传用户:heermeisi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据具备数据量大、富于多样性的特点。因此在大数据分析方面,无论是对处理速度还是实时性都具有较高的要求。数据挖掘技术是从海量数据里采用某种建模算法,用来寻找隐藏在数据背后的信息,从而让大数据产生更大的价值。Spark框架是一个针对超大数据集合的低延迟的集群分布式计算系统。本文基于该框架,对大数据挖掘技术进行了具体研究,首先完成了基于Yarn部署上Spark集群搭建,然后提出并实现了并行Apriori算法,该算法成功补充了Spark MLlib分布式机器学习库中所缺乏的关联分析问题的分布式算法。
其他文献
腹腔镜技术是一项新型的治疗手段,以其创伤小、痛苦轻、恢复快、住院时间短等优点,被广泛应用于妇科疾病、胆囊炎症及泌尿外科手术中。腹腔镜手术对于临床护理具有较高的要求
目的:通过观察桂枝养心胶囊治疗慢性充血性心力衰竭的临床疗效,探讨其治疗慢性心力衰竭的作用机制,为中药治疗慢性充血性心力衰竭提供客观依据。方法:将符合纳入标准的69例慢性心
目的 :讨论分析不同采血方法在血常规检验中的应用价值。方法 :选取2012年1月~2013年5月间来我院进行血常规检查的患者156例作为研究对象,将其随机分为A组(52例)、B组(52例)
随着科技的发展,越来越多的作曲家开始将各类控制、感应等技术应用到电子音乐创作中,交互式电子音乐正逐渐成为主流。Arduino作为一款开源电子原型制作平台,拥有良好的扩展能力,
<正> 山阴县位于山西省雁门关北。山阴县内,各地的代词也有差异,这里讨论的是县人民政府所在地岱岳话的代词。所记录的代词,凡本字明显的,照写本字;凡本字不好确定的,就借用
期刊
目的:研究并分析心内科护理质量控制系的构建及其实施效果。方法:我院自2013年1月~2013年6月,针对心内科护理工作实际情况,构建了针对性的护理质量控制系。同时,选取2012年6
儿童的思想品德教育在人一生的成长中有至关重要的作用,品德与生活课程在学校教学中担当了小学一二年级品德教学的职责。2011年品德与生活课程标准公布之后,全国掀起了一股品德
旋转调制技术能够抑制惯性器件的测量误差,提高惯导系统的导航精度。论文主要对旋转调制技术进行了研究,以期能够将旋转调制技术应用于车载惯导系统,实现精确定位定向的目的。本
2014年5月1日起施行的新商标法明确了关于商标退化的法律规定。到目前为止,我国法律尚未引进商标淡化理论。商标退化与商标淡化理论在国外已经发展得相当成熟,20世纪90年代以来
伴随着经济的飞速发展和人们生活水平的逐步提高,人们对农产品的要求从过去单纯的注重数量转变为注重质量。但是,近年来层出不穷的农产品质量安全事件给我们敲响了警钟,这不仅说