论文部分内容阅读
在大数据时代,数据作为公共组织、企业越来越重要的资产,正历史性的改变着企业资产的发展进程。作为数据挖掘的一个重要研究方向和技术,关联规则旨在从大量数据中发现某些特征之间或者数据之间的相互依赖的关系。目前传统关联规则挖掘算法在处理大规模数据时可能面临频繁的I/O操作、计算量过大、时空消耗严重等问题。随着云计算平台Hadoop充分的发展,关联规则挖掘算法在分布式计算框架MapReduce的实现将有着广泛的应用场景。本文基于对关联规则算法基本概念及经典算法的深入理解,在现有算法基础上进行改进,提出R-SLI算法。该算法引入频集树概念,将对频繁项目集的挖掘问题转化为挖掘满足条件的子结点问题,并改变了原算法对矩阵的使用方式,使得矩阵能够保留数据库的完整信息,避免了动态更新阶段因信息不足而重新查找数据库的可能。在研究并行算法的设计策略后,本文对R-SLI算法实现了基于MapReduce计算框架的并行实现,提出了P-MT算法。算法根据MapReduce作业输入输出<Key,Value>键值对的特性,将矩阵按行拆分在数据流中传输,通过各节点生成统一频集树快速挖掘所有可能的候选频集,实现分布式的高效、准确的关联规则挖掘。最后实现P-MT算法,并在不同的实验阈值和实验数据集下测试算法性能。通过与其他并行算法的横向对比,得出该算法确实具有更好的时间性能。