论文部分内容阅读
流数据存在于工业生产、生活活动、商业交易等领域,与人们的生活、生产等息息相关,因此对流数据的研究是十分有意义的。流数据挖掘的主要方向之一是在其上挖掘关联规则。流数据关联规则的挖掘可以挖掘到不同数据流间的相关关系。由于流数据的自身特性:大量性、流动性、不可预知性等,随着时间的变化,数据流所蕴含的知识也在不断的更新,因此流数据对数据挖掘算法提出了很高的要求。人们大多情况下对最新的数据所蕴藏的知识更感兴趣,并且我们更关心发生在不同时间段之间的关联规则,因此本文提出了搜寻最优支持度的跨事务间关联规则的挖掘方法。目前学界已经对关联规则有了很深入的研究了,研究方向也分许多方面,这些研究由于方法不同所以挖掘出的知识也不尽相同,但是大部分算法都找到了事务内关联规则,在挖掘事务间的关联规则方面做出特别深入的研究是很少,且这些算法都是基于人为主观设置最小支持度阈值的。本文首先利用滑动窗口对数据进行了限制,然后对流数据进行预处理。在预处理的过程中利用了线性化拟合的方法降低了数据量,最后在预处理的结尾本文提出了分组大事务的方法来生成跨事务间数据集。在挖掘关联规则过程中本文根据关联规则的挖掘算法FP-growth提出了ITF-tree算法。随着时间的增加数据量会一直增多,但是一般情况下人们对历史数据的关注度会低于对最近生成的数据,因此本文利用了数据衰减的概念,从而降低历史数据对当前挖掘结果的影响程度。由于人为的设置最小支持度阈值可能会带来许多问题,因此本文提出了一个搜寻最小支持度阈值的方法。通过与已有算法在热电厂数据集上进行了对比试验,表明本文所提出的方法是有效的。在时间效率上可以较好的满足流数据的要求,同时可以挖掘到有效的跨事务关联规则。