数据流频繁模式挖掘算法研究与设计

来源 :燕山大学 | 被引量 : 0次 | 上传用户:jingjing2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过近十几年的努力,数据挖掘技术已经相当成熟,然而,在一种新的数据环境中,即数据流环境中进行挖掘是一项具有挑战性的工作。近年来涌现的许多应用促进了数据流模型的提出,这些应用包括电子商务、传感器网络、股票数据分析等。这些应用中产生的数据源源不断地到来,因此只能按顺序进行处理,而且数据量是无穷的。传统的数据挖掘算法只能处理静态数据,对这种大量的、快速的数据流是无能为力的。本文对数据流频繁模式挖掘算法进行了深入研究,从分析三种不同的频繁模式出发,进行数据结构设计和算法研究。首先,为了适应数据流快速、大量的特性,设计了一种新的数据结构CFIT,它能存储数据流的概要信息,并且通过在前缀树中加入超集链,使得扫描树的次数减少,节省了挖掘时间。然后,基于频繁模式树,结合滑动窗口技术提出了一种增量更新算法TW-CFI,它能适应数据流的特点并且可以挖掘数据流频繁闭项集信息。其次,算法利用倾斜时间窗口保存历史数据,满足了实时查询和事后检索的需求。通过模式修剪策略,将不频繁项集尽早删除掉,提高了挖掘效率,节省了数据存储空间,更好的评估了数据流中频繁闭项集信息。最后,通过实验对比当前其他数据流频繁模式挖掘算法,结果表明,本文提出的算法在时间效率上优于现有的同类算法。
其他文献
边缘检测是数字图像处理中的重要内容,也是至今仍没有得到圆满解决的一类问题。其原因一方面是由于课题本身的重要性,另一方面也反映了这个课题的深度和难度。边缘是图像的最
工作流是针对工作中具有固定程序的常规活动而提出的一个概念。通过将工作活动分解成定义良好的任务、角色、规则和过程来进行执行和监控,达到提高生产组织水平和工作效率的目
被称为是下一代互联网的网格计算,从它诞生那天起就受到了人们的广泛关注。它就像一台超级计算机,通过网格,我们可以整合的不仅仅是计算机和网页,还包括其他许多信息资源,如:
近年来,XML(Extensible Markup Language)己经成为互联网上数据发布和数据交换的事实标准。受到越来越多的关注。各行各业都在采用XML来描述本领域的信息,随着XML的普及,人们
引入错误级别的概念,提出了一种同时考虑测试集覆盖度与查错能力的双标准压缩模型。把设计的测试用例保存在测试集中,按照一定的覆盖度标准组织起来;运行用例发现的软件错误
随着计算机网络技术、信息技术和数据仓库的持续飞速发展,出现越来越多的分布异构数据源。异构数据源的研究已有很多成果,但由于子数据库和数据仓库中各种各样的异构依然存在,数
安全协议是保证网络安全的重要技术之一,但安全协议自身的缺陷,往往会导致很严重的安全问题。如何验证安全协议能否实现其安全目标,成了研究中的热点问题。近年来,导师苏开乐教授
随着世界经济全球化和一体化的发展,电子数据交换已成为企业参与贸易竞争的重要手段。传统的EDI交换方式的技术复杂及费用要求过高等诸多不利因素,使得在中小企业中实施起来
无线传感器网络通常用于人类无法或因某种原因不能进入的区域内检测周围环境的各种变量,它的应用范围越来越广泛,其研究已成为无线网络领域的重要课题。无线传感器网络有其自身
随着计算机技术和网络技术的发展,移动计算与实时计算已经成为计算机科学领域的两个研究热点,受到越来越多的关注。不同领域的学者对这一问题的研究有不同的方法。形式化方法作