基于动态支持度的流数据关联规则挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:buffisher
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据存在于工业生产、生活活动、商业交易等领域,与人们的生活、生产等息息相关,因此对流数据的研究是十分有意义的。流数据挖掘的主要方向之一是在其上挖掘关联规则。流数据关联规则的挖掘可以挖掘到不同数据流间的相关关系。由于流数据的自身特性:大量性、流动性、不可预知性等,随着时间的变化,数据流所蕴含的知识也在不断的更新,因此流数据对数据挖掘算法提出了很高的要求。人们大多情况下对最新的数据所蕴藏的知识更感兴趣,并且我们更关心发生在不同时间段之间的关联规则,因此本文提出了搜寻最优支持度的跨事务间关联规则的挖掘方法。目前学界已经对关联规则有了很深入的研究了,研究方向也分许多方面,这些研究由于方法不同所以挖掘出的知识也不尽相同,但是大部分算法都找到了事务内关联规则,在挖掘事务间的关联规则方面做出特别深入的研究是很少,且这些算法都是基于人为主观设置最小支持度阈值的。本文首先利用滑动窗口对数据进行了限制,然后对流数据进行预处理。在预处理的过程中利用了线性化拟合的方法降低了数据量,最后在预处理的结尾本文提出了分组大事务的方法来生成跨事务间数据集。在挖掘关联规则过程中本文根据关联规则的挖掘算法FP-growth提出了ITF-tree算法。随着时间的增加数据量会一直增多,但是一般情况下人们对历史数据的关注度会低于对最近生成的数据,因此本文利用了数据衰减的概念,从而降低历史数据对当前挖掘结果的影响程度。由于人为的设置最小支持度阈值可能会带来许多问题,因此本文提出了一个搜寻最小支持度阈值的方法。通过与已有算法在热电厂数据集上进行了对比试验,表明本文所提出的方法是有效的。在时间效率上可以较好的满足流数据的要求,同时可以挖掘到有效的跨事务关联规则。
其他文献
强化学习是一种无监督的机器学习技术,能够利用不确定的环境奖赏发现最优的行为序列,实现动态环境下的在线学习,因此被广泛用于Agent的智能决策。目前主流的强化学习算法是Q
随着网络技术的不断发展和普及,网络安全问题也日益凸现。基于策略的网络安全防护是当前网络安全技术的主要发展方向,但其中的安全策略求精问题一直没有得到很好的解决。迄今
互联网的迅速发展,越来越多的用户连入网络,使得原有的IP地址日渐不足,为了解决这个问题,人们提出了多种解决方案,其中短期解决方案网络地址转换技术(NAT)的出现,很好的缓解了地址
由于Internet的迅速普及以及对多媒体业务日益增长的需求,流媒体技术已经引起了越来越多的关注,成为当前研究的热点之一。流媒体技术将成为未来Internet应用的主流,并将推动整个
近年来,随着医疗卫生事业的发展,在临床医疗活动中的药物使用问题逐步成为公众关注的焦点。据统计资料显示,中国每年五千多万住院人次中与药物不良反应有关的可达二百五十多
随着社会的发展,人们对通信尤其是无线通信的需求不再仅限于语音方面,无线数据传输方面的需求越来越多,要求也越来越高。包括数据传输速率,网络延时,安全性方面等。无线数据
随着生物测序技术的研究不断深入,蛋白质序列数据呈爆炸性的增长,然而与之相比,蛋白质功能和结构数据增长缓慢。因此有必要利用蛋白质的一级结构预测蛋白质的功能和结构。本
带叶冠变截面扭曲叶片涡轮盘能大大提高涡轮的整体结构强度和工作可靠性。但由于这种类型的涡轮盘结构复杂,叶片为变截面扭曲,叶片间距最小处为4mm,且形成了一种扭曲的小通道,选
证券市场变幻莫测,作者试图找出股票指数这一时变波动序列的运行规律,从而对股票指数进行预测、为股票投资行为做出有效指导。股票指数对许多因素的变化都非常敏感,其中有来
学位