论文部分内容阅读
随着现代科学技术的发展,计算机科学与技术的进步,数据挖掘作为一门崭新的知识发现技术学科得到了快速的发展。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的大型数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。由于我们在科学研究以及日常事务中积累了大量的数据资料,如果不借助有用的工具去发现其中潜在有用的信息,即使是知识的海洋,我们也将信息贫乏,很多有用的信息也不能够被我们发现。由于以往的算法如:经典算法Aprior算法需要多次扫描数据库,产生大量候选项集,而FP-Growth算法需要建立庞大FP-Tree占用大量内存,它们在效率上不高,当面临十分庞大的数据库时,其算法在效率上显然不足,也不能够适应大型数据库的数据挖掘,效率问题成为该研究与应用的关键和难点。FP-Growth算法采用分而治之的策略,把数据库中的频繁项集压缩到一棵频繁模式树(FP-tree)中,同时保留项集之间的关联信息,再将FP-tree划分为一些条件模式库分别进行挖掘。由于不用多次扫描数据库,不产生候选项集,其效率显然比Apriori算法高,但是该算法由于要建立FP-tree需要占用大量内存,所以不适用于大型数据库进行数据挖掘。Parallel Algorithm算法是指在并行机上,将一个任务分解成多个子任务(task),分配给多个不同的处理器(process),各个处理器之间相互协同合作,并行地执行子任务,从而达到加速求解速度或者求解应用问题规模的目的。本论文研究的是基于FP-Growth关联规则的并行算法问题,通过对当前FP-Growth和Parallel Algorithm的一些关键技术的研究,提出一种基于FP-Growth关联规则的并行算法分析及其应用研究。该算法针对以往算法的缺点和不足,在FP-Growth算法基础上,借助并行算法的思想,将数据库分块以及保留数据相关性不变的FP-tree树划分算法,同时将任务合理分配,并将它们进行合理组合,在负载平衡,多处理器调度上做了相应的研究,使任务达到合理分配组合、实现了较好的负载平衡,提高了算法速度,此算法适用于大型数据库的数据挖掘,相对以往算法,在效率上有了显著的提高。