论文部分内容阅读
关联规则挖掘作为数据挖掘中重要的研究方向之一,致力发现数据背后蕴含的规则和联系。随着互联网信息技术和人工智能技术的深入发展,全球数据量呈现指数式增长。因此需要算法能更加及时,准确的做出分析和处理,由于算法本身需要多次迭代,使得挖掘效率受限于计算机性能,传统的串行关联规则挖掘方式难以为继。因此以Hadoop为代表的并行计算平台应运而生,为处理大数据提供了新的思路和可靠的保障,实现了海量数据的可靠存储与高效处理。而基于内存并行的Spark计算框架,因良好的灵活性和扩展性,使其能够更加高效处理迭代问题。因此本文利用Hadoop与Spark相关技术实现关联规则优化算法的分布式并行,主要工作内容如下:1、本文提出基于存储机制与深度剪枝优化的BDEclat算法。随着数据量的增加,Eclat算法存在候选项集规模大,连接操作频繁等问题。利用二进制矢量存储事务记录列表,位“与”运算计算事务支持度,结合预剪枝、约束剪枝、后剪枝压缩候选项集规模,最后通过实验验证了改进的有效性。2、为进一步提升算法应对海量数据的能力,提出基于Spark框架的BDEclat并行算法—BPEclat。针对算法结构和前缀项划分过程出现的数据分区不均衡问题,通过调整算法结构并引入计算量,利用自适应步长划分的思想对数据进行分区,最后通过实验验证了改进的有效性。3、提出一种结合BPEclat与K-Means++的聚类关联规则挖掘模型,针对TE化工过程数据集,分别利用K-Means++、1σ准则对状态变量、操作变量进行离散化和标准化,并通过操作关联规则挖掘,验证模型的实用价值与有效性,实现技术研究到实用成果的转化。