流式数据的并行聚类算法研究

被引量 : 0次 | 上传用户:ynshisss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机、移动和物联网设备的普及,各类网络应用逐渐泛在化,由此产生了大量多源、异构的流式数据,如网络入侵数据、股票数据和天气监测数据等。流式数据具有多样化、时序性、海量、连续到达、潜在无限等特点,从而使基于流式数据的挖掘任务变得更加复杂,且富有挑战性。聚类作为一种无监督的学习方式,是数据挖掘的一种重要方法,它能根据数据间的相似性对数据进行划分,并根据划分结果对数据进行归类,从而有助于从海量数据中提取潜藏的、未知的、有价值信息。基于流数据的数据挖掘一方面限制于有限的主存空间和低下的磁盘I/O效率,不能将数据全部持久化存储;另一方面则受流式数据处理方法的制约,不能实时、在线挖掘。因而,如何实时、高效、可靠地处理流式数据,成为了数据挖掘方面一个值得关注的难点问题。近年来,并行与分布式计算、集群架构及其相关技术的迅速普及与应用,为解决大规模流式数据的实时挖掘带来了曙光。本文将并行化的思想引入到流数据的聚类处理中,在分布式内存计算框架Spark下将聚类算法并行化,实现数据在多台计算机上的并行处理,从而提供高吞吐量、高容错性的实时处理。本文具体研究内容如下:(1)针对流式数据特点,对流式数据聚类算法进行了详细研究,给出了流式数据聚类算法的分类,分析了分布式计算框架Hadoop上MapReduce编程模型的工作原理和实现机制,并在流数据处理方面与分布式内存计算框架Spark进行了比较,总结了Spark具有的并行处理优势。(2)在研究CluStream算法的基础上,针对数据处理时的时效性和算法参数敏感性问题,提出了一种针对流数据的基于变长滑动窗口和遗传算法相结合的CluWin-GA聚类算法。实验分析表明,该算法具有良好的时效性和可靠性,是一种具有动态自适应能力的流数据聚类新算法。(3)将内存计算及并行化理念引入到流数据聚类过程中,继而应用Spark分布式计算框架改进了流数据聚类算法的并行化策略。借助Spark平台,本文实现了CluStream算法以及改进算法CluWin-GA的聚类并行化。结果表明,利用分布式计算框架Spark,改进后的并行聚类算法能更好地实现对流数据的实时、高效、可靠的聚类处理。总之,本文从流数据特点入手,借助变长滑动窗口技术和遗传算法提出了一种双层架构的流数据聚类算法;通过将内存计算和并行化的思想引入到流式数据聚类中,实现了Spark并行计算框架下流数据的并行聚类,从而为流式数据聚类算法的进一步研究奠定了基础,对大数据和云计算背景下的并行数据分析具有较高的理论意义和实践价值。
其他文献
矿井通风系统是矿山开采的一个重要系统,良好的通风系统是矿山进行安全采掘工作的重要保障。国内许多金属矿山随着开采年限的增长,浅层资源日益减少,开始转入深部开采。随着
闵惠芬是我国当代民族音乐界的杰出代表,从艺生涯五十余年她一直坚持不懈的贯彻着先进文化的发展方向对民族音乐水平的提高和艺术创新,怀有一种历史责任感和使命感。闵惠芬二
美国小学科学教育的特点美国小学科学教育具有以下特点:一、注重科学教育活动的过程,培养学生的智力技能。美国小学科学教育注重科学教育活动的过程。科学包括科学发现的结果与
针对巡飞弹等高、常速巡飞等特点,将整条航迹分为直线段和转弯段,利用假设条件,提出一种导引方法:在直线段进行位置和偏差角控制,转弯段采用转弯控制,进而完成整个航迹导引并
郭卫民,国务院新闻办公室新闻局局长。作为主管新闻发布和重大事件对外报道的工作部门领导,他不仅要频频主持国务院新闻办的新闻发布会,而且对各级政府新闻发布工作负有指导
为了提高气候变化条件下水工混凝土的抗冻耐久性,采用自制的气候模拟系统,设定了-5℃、-10℃、-17℃、-30℃、-40℃等5 个冻融过程降温终了混凝土试件中心温度,研究冻融温度
随着《京都议定书》于2005年正式生效,排放权交易体系近年来发展迅速。我国已成为清洁发展机制(CDM)项目供应大国,实体将需要在会计报告中反映碳排放权交易事项,但目前尚未出
动漫因其幽默的表现形式和天马行空的内容备受青少年儿童的喜爱,对当代青少年的认知行为、道德取向、价值选择有着不可小觑的影响。优秀的动漫作品对于青少年的健康成长、顺
文章通过对《富春山居图》及其临仿本的对比研究,发现虽然临仿本的技法表现和原图基本相似,但其言说的指向性完全不同。原图的魅力在于它基于存在而“可居”。而在临仿本中,
真正意义上的视唱练耳教学迄今已经历了200多年,其雏形更可追溯到欧洲中世纪时期。经过漫长的历史发展,视唱练耳已逐渐发展成符合音乐教育规律且具有自身鲜明特点的“视唱练