论文部分内容阅读
近年来,数据挖掘相关的研究领域越来越热门,除了关联规则的挖掘外,也有学者致力于探讨时间因子的关联规则,大致可区分为消费者购买行为分析、网页浏览分析,以及时间趋势分析等。而在探讨消费者购买行为的时间序列,多借着候选序列的产生及验证,以渐进的过程来产生频繁模式,然而验证的过程必须重复扫描数据库,也因此造成系统沉重的负担而导致效率不佳。 由于时序数据模式可以看作是关联规则考虑时间因素后衍生出来的,所以论文先介绍关联规则,对关联规则的经典定义给出了详细地描述。数据挖掘系统的效率问题是数据挖掘研究的重要内容之一。经典的关联规则Apriori算法在空间和时间的复杂性上,有着难以避免的局限性,本文引入了一种基于FP—树的频繁模式增长算法,在中间过程中不需要产生候选项的算法,从而避免了反复扫描数据库时在时间上的开销。 但是,基于时序数据的FP-树算法在数据库中的项目较多,并且含有大量事务时,内存空间的开销很大,当内存不能装入所有模式映射信息时,算法将难以有效地工作。本文为了在时间和空间上寻求平衡点,提出以邻接矩阵频繁模式FPAM来记录时间序列的顾客群,利用邻接矩阵来记录数据库中项目的频繁项集,进而生成需要的频繁模式。本文使用一种基于邻接矩阵的频繁项集和频繁模式的产生方法,可以大大减少扫描数据库的次数,可以使系统的性能得到改善。这样就可解决项目数量与内存空间的矛盾,达到时间和空间的平衡。