论文部分内容阅读
时间序列是按时间次序排列的观测值的集合。时间序列分析是指对这些按时间次序排列的观测值进行分析,进而得到对实际有指导作用的结论的过程。时间序列分析方法也是多种多样,像传统的自回归模型、滑动平均模型、自回归滑动平均模型以及近年来迅速发展的数据挖掘和高阶统计量方法等等。数据挖掘作为近些年迅速发展的时间序列分析方法之一,得到了越来越多的科学工作者的关注。数据挖掘技术是从大量的﹑不完全的、有噪声的﹑模糊的、随机的数据中,提取隐含在其中的﹑人们事先不知道的﹑但又是潜在的有用信息过程。关联规则作为数据挖掘的最重要的方法之一,近些年在时间序列数据挖掘中得到了广泛的应用。旨在发现大量的数据中项集之间有趣的关联和相关联系。关联规则最经典的算法是由Rakesh Agrawal等人提出的Apriori算法。Apriori算法采用唯一的支持度和置信度进行关联规则的挖掘,这样对我们的挖掘来说存在以下问题,在支持度方面,如果挖掘的最小支持度定得较高,那么覆盖数据较少,因而一些有意义的关联知识将不能被发现。如果最小支持度定得过低,那么大量的无实际意义的数据关联将充斥在挖掘过程中,大大降低挖掘的效率和得到规则的可用性。在置信度方面,如果采用唯一的置信度,它的前提条件就是各个规则用于推理的强度非常相似,但在现实生活中这个条件很难成立。本文针对Apriori算法的不足,在分析大量的国内外关于关联规则的研究的基础上,提出了一种新型的多支持度和多置信度关联规则发现算法-平均域值关联规则挖掘算法(MT-Apriori:Mean Threshold Apriori)。此算法应用Apriori算法的基本思想,采用平均支持度和平均置信度阈值进行关联规则的挖掘,即首先采用平均支持度阈值进行频繁项集的发现,然后,根据发现的频繁项集和平均置信度阈值进行关联规则的挖掘,这样不仅可以避免Apriori算法的不足,又可以挖掘出用户感兴趣的关联规则。本文最后把MT-Apriori算法分别应用到股票、超市和医学的数据挖掘之中。实验结果显示了此算法相对于Apriori算法有了一定的改进。