论文部分内容阅读
针对云制造环境下的海量数据挖掘,分析了现有并行频繁模式增长算法的实现和不足。研究了利用键值存储系统对其中的计数和分组部分进行优化。利用键值型数据库存储简单、自动增长且有序的方式,将计数和分组的信息存储在了键值型数据库上。通过减少对分布式文件系统的读写,并将计数过程和排序过程并行化执行,优化后的算法减小了存储节点的网络及内存开销。在真实数据集上,通过实验对比了优化前后算法的性能以及对于文件系统I/O的开销。