基于FP-Growth关联规则的并行算法分析及其应用研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户：a76s333

【摘要】

：

随着现代科学技术的发展,计算机科学与技术的进步,数据挖掘作为一门崭新的知识发现技术学科得到了快速的发展。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模

【作者】

：

李涛

【机构】

：

辽宁工程技术大学

【出处】

：

辽宁工程技术大学

【发表日期】

：

2011年期

【关键词】

：

FP-Growth 关联规则并行算法负载平衡

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着现代科学技术的发展,计算机科学与技术的进步,数据挖掘作为一门崭新的知识发现技术学科得到了快速的发展。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的大型数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。由于我们在科学研究以及日常事务中积累了大量的数据资料,如果不借助有用的工具去发现其中潜在有用的信息,即使是知识的海洋,我们也将信息贫乏,很多有用的信息也不能够被我们发现。由于以往的算法如:经典算法Aprior算法需要多次扫描数据库,产生大量候选项集,而FP-Growth算法需要建立庞大FP-Tree占用大量内存,它们在效率上不高,当面临十分庞大的数据库时,其算法在效率上显然不足,也不能够适应大型数据库的数据挖掘,效率问题成为该研究与应用的关键和难点。FP-Growth算法采用分而治之的策略,把数据库中的频繁项集压缩到一棵频繁模式树(FP-tree)中,同时保留项集之间的关联信息,再将FP-tree划分为一些条件模式库分别进行挖掘。由于不用多次扫描数据库,不产生候选项集,其效率显然比Apriori算法高,但是该算法由于要建立FP-tree需要占用大量内存,所以不适用于大型数据库进行数据挖掘。Parallel Algorithm算法是指在并行机上,将一个任务分解成多个子任务(task),分配给多个不同的处理器(process),各个处理器之间相互协同合作,并行地执行子任务,从而达到加速求解速度或者求解应用问题规模的目的。本论文研究的是基于FP-Growth关联规则的并行算法问题,通过对当前FP-Growth和Parallel Algorithm的一些关键技术的研究,提出一种基于FP-Growth关联规则的并行算法分析及其应用研究。该算法针对以往算法的缺点和不足,在FP-Growth算法基础上,借助并行算法的思想,将数据库分块以及保留数据相关性不变的FP-tree树划分算法,同时将任务合理分配,并将它们进行合理组合,在负载平衡,多处理器调度上做了相应的研究,使任务达到合理分配组合、实现了较好的负载平衡,提高了算法速度,此算法适用于大型数据库的数据挖掘,相对以往算法,在效率上有了显著的提高。

其他文献

校园网络故障客户端辅助诊断技术研究

近年来,校园网的规模随着计算机网络技术的快速发展而日益扩大。人们在日常生活中越来越依赖网络,保证网络服务畅通稳定就显得更加重要。而当前网络的复杂性和异构性越来越高

学位

校园网简单网络管理协议故障诊断案例推理

基于Web2.0的个性化服务系统在电子商务中的应用研究

随着信息技术的飞速发展,个性化的产品、个性化的服务逐渐成为电子商务的发展趋势之一。本文以文献推荐服务系统为实例,对个性化电子商务应用系统中用户建模中涉及到的技术进

学位

电子商务个性化服务用户建模知识发现

基于VHDL的PC104总线数字存储示波卡的设计与实现

本文通过深入研究高速数据采集技术原理和实现方法,提出了基于VHDL的4路并行数据采集架构,利用低速、低成本的A／D转换器件实现了400MSa/s高速数据采集的目标,研发的示波卡具有

学位

高速数据采集VHDL示波卡PC104总线数字插值数字滤波

基于嵌入式分布式数据库三层交换机高可靠性的的研究与实现

随着互联网和信息化建设的迅猛发展,三层交换机的应用已遍及骨干网、城域骨干网和汇聚层等,所以运营商对三层交换机的可靠性也提出了更高的要求。目前主要采用热插拔、热切换

学位

热备份嵌入式分布式数据库数据库存储

蛋白质多序列比对算法及其评估算法的研究

多序列比对是生物信息学中至关重要的一步。传统的序列比对的方法是NP难问题。目前的算法都是以牺牲某种程度的精度为代价,达到可实用的速度。由于现有的蛋白质多序列比对算

学位

相对熵多序列比对最长公共子序进化距离置换距离

基于ARM的感应电机定子电流谐波分析的用户界面系统的设计

感应电机由于其结构简单、可靠性高、价格低廉、便于维护而在我国的工农业生产领域得以了广泛的应用。随着我国工业系统的飞速发展,感应电机的单机容量不断增加,所以驱动的负载越来越复杂。电机故障不仅对电机本身造成损坏,严重时还会使电机突然停机,造成生产崩溃,产生巨大的经济损失。电机处于异常运行或故障状态时,必然会引起一些电气量(电压、电流)的变化,这些物理量的变化是检测和判断电机故障的重要信息。由于定子电流

学位

感应电机ARM微处理器μC/OSⅡ数据库FFT幅值恢复法

大幅面扫描仪上层驱动软件设计与实现

大幅面扫描仪是一种具有扫描幅面宽、分辨率高、图像质量高等特点的专业扫描仪，广泛应用在各种专业图像领域。它的特点决定了其有较高的开发难度。本文在分析各种大幅面扫描仪

学位

可变幅面扫描仪驱动设备校正图像增强

信息安全风险评估量化模型的研究与应用

随着我国信息化应用的逐步深入,越来越多领域内的主要业务都依赖于信息系统得以实施。信息系统风险评估及以其为基础和前提的信息系统安全工程越来越受到人们的重视,这在很大

学位

风险评估模糊综合评判风险量化模型

主题搜索引擎的关键技术研究与实现

随着网络上信息量的极速增长,Web上出现了大量的重复信息和垃圾信息,用户感觉很难快速找到自己真正需要的信息,通用搜索引擎面临着信息采集规模、更新速度和专业化需求等多方

学位

主题搜索引擎网络爬虫URL搜索策略主题孤岛贝叶斯分类器

H.264中变换和量化算法的研究与优化

H.264视频编码国际标准是由ITU-T的视频专家组和ISO/IEC的运动图像专家组共同组成的联合视频小组JVT (Joint Video Team)制定的。为了实现更高的编码效率,H.264标准采用了许

学位

H.264整数DCT变换全零块预测高斯分布SSE2

基于FP-Growth关联规则的并行算法分析及其应用研究

其他学术论文