论文部分内容阅读
目前大部分流数据挖掘方法都是从基于静态数据集的数据挖掘方法改进而来的。并且秉承了基于静态数据集的数据挖掘的理念将数据存于可控制范围内,并在此范围内进行数据挖掘,因此这类流数据挖掘方法的思想是将一部分流数据存在本地,然后在基于这部分数据进行挖掘工作。但是这种思想并不完全适合用在流数据挖掘上面,也就是说现在的大多数基于滑动窗口,界标窗口的挖掘方法存在其固有的缺点,即只能以窗口内的数据为基础来进行挖掘。这样就不可避免的忽略了流数据的时间波动特性。还有一个缺点就是因为有存储设备的限制,窗口的大小受到限制,这样即便使用对流数据有一定兼顾的衰退窗口机制也同样不能彻底解决流数据的历史特性问题。针对这些缺点,本文基于统计数据密度分布特性提出了一种比较适合流数据的挖掘方法,称为PDB-FIM(Probability Density Based Frequent Item-set Mining)。算法PDB-FIM通过维持两棵流数据信息树的方式记录了当前感兴趣项集的频繁信息和密度分布信息,并且在查询到达时通过对记录信息的处理和挖掘输出维持数据中的频繁模式。这种方法有以下几个特点:占用内存少,兼顾历史数据性好,对数据的波动性敏感等。下面是本文涉及的主要内容:首先,本文提出了算法PDB-FIM维持主存平衡的方式通过密度信息和支持度信息剪枝的双重策略达到贮存使用的动态平衡,并且通过维持两棵信息树的方式将感兴趣项集的信息保存到查询到来以前。其次,本文还介绍了完全信息树和不完全信息树的概念,并且采用通过保持一棵不完全信息树和一棵完全信息树的方法节省内存加快算法的速度。同时还提出了其他可行的方案并分析了这些方法的优缺点。第三,本论文介绍了一种密度信息的提取、处理、计算和使用的方法,这也是本文的一个创新的地方。最后,本文还做了算法PDB-FIM和经典流数据挖掘算法CFI-Stream的比较实验,结果表明在查询频度合适的情况下不但单个项集处理时间被大大缩小,并且能够对过期频繁的数据进行剔除。