论文部分内容阅读
在现实世界和工程实践中,可以产生大量的数据流,它不同于传统的静态数据。如何快速、高效地挖掘数据流中的频繁模式是数据流挖掘的重要问题。本文将研究重点放在数据流中基于优化的FP-tree的频繁模式挖掘算法设计上,其研究成果对于电子商务、商业智能以及市场决策等领域具有重要意义。首先,为了改善数据流中频繁模式的挖掘效果,提出了基于衰减因子的数据流中频繁模式的挖掘方法DS-FPM。构造了一种数据结构DSFP-tree用于压缩存储数据流中的潜在频繁项集。为了使挖掘结果既保留历史细节,又节省算法的存储空间,本算法引进衰减因子将算法所需要的内存空间控制在一定的规模之内。算法采用数据分段的思想,先对上一个分段得到的DSFP-tree用衰减因子λ进行选样,再得到最新的数据分段的临界频繁项集,然后将两者都插入到新的DSFP-tree中,最后挖掘出DSFP-tree中的频繁项集。其次,为了减少保存数据流中项集信息所需要的内存空间,构造了一种存储潜在最大频繁项集的结构DSMFI_tree,基于DSMFI_tree结构提出了一种数据流最大频繁项集挖掘算法DSMFI-Miner。算法同样采用数据分段的思想,以数据分段为更新单位,动态更新全局DSMFI_tree,通过遍历DSMFI_tree,快速挖掘出数据流中的所有最大频繁项集。最后,本文使用C语言对上述算法进行实现,实验数据集选择采用IBM test data generator生成的数据集,对提出的DS-FPM算法和DSMFI-Miner算法进行了实验测试。