数据流中频繁项目集挖掘算法的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:systemlu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘经过十几年的研究,特别是最近几年,一些基本概念和方法趋于清晰,它的研究也向更深入的方向发展。随着信息技术的发展和互联网的兴起,数据量急剧膨胀,而且数据的形式也多种多样。传统的数据挖掘方法往往都集中在对静态数据的挖掘,他们可以高效地在静态数据中挖掘信息和知识,但是他们无法适应在高速的,大量的,实时性很强的数据流,因此数据流挖掘成为最近数据挖掘领域比较热的研究点。 在数据流挖掘领域中,频繁项集的挖掘是基础性的,比较关键的问题。同时,对于挖掘数据流中的频繁项目集的研究也是数据流挖掘应用于实际所必需的基础性研究,有着广泛的应用前景。在这个领域中,传统的研究方法大多关注于在数据流中挖掘全部频繁项集。由于挖掘全部频繁项集存在数据和模式冗余问题,所以对算法的时间和空间效率都具有更大的挑战性。因此,近年来人们开始关注在数据流中挖掘频繁闭项集与最大频繁项集,其中一个典型的工作就是Moment算法。另外,在数据流中挖掘频繁项目集领域,挖掘算法所使用的窗口机制,数据淘汰与剪枝策略也是比较关键的问题,近些年来也得到了广泛研究。 本文针对数据流挖掘中的窗口机制、数据淘汰与剪枝策略、频繁闭项集与最大项集这三个需要解决的问题,主要完成了以下的研究工作: (1)提出了一种数据流中挖掘频繁闭项集的近似挖掘算法A-Moment。它采用衰减窗口机制、近似计数估计方法和分布式更新信息策略来解决Moment算法中过度依赖于窗口和执行效率低等问题。 (2)本文针对削减节点规模问题,提出了一种新型数据结构Full-CET,并且基于该数据结构设计了数据流中挖掘频繁闭项集算法F-Moment和挖掘最大频繁项集算法MMFI。 (3)对新算法与典型算法进行了详尽实验及比较,分析了每个算法的效率。实验表明,这些新提出的算法在效率上要高于目前出现的同类典型算法。
其他文献
本文首先介绍了国内外学校信息发布系统的发展和我校信息发布的现状,并且通过介绍国内LED显示屏发展情况,设计了适合我校的信息发布系统。 在文章中详细介绍了系统的功能组
作为当今互联网面临的严重威胁之一,僵尸网络(Botnet)经过十几年的发展,已经从早期的集中型,例如IRC和HTTP型僵尸网络,逐渐发展为当前更为健壮、复杂的分布型,即P2P僵尸网络
本文通过对802.1X协议认证体系的扩展,设计、搭建并完成了基于802.1X协议的网络安全运行保障系统,它由802.1X安全客户端、AAA系统扩展和RADIUS辅助系统3个部分组成,内容覆盖客户
三维网格形变技术是计算机图形学领域的研究热点,在制造业,娱乐业,游戏工业等领域有着广泛的应用。 随着三维扫描技术的日益成熟,人们可以方便地获取几何细节丰富的三维网格模
虚拟企业是一种能够适应科技迅速发展和经济全球化趋势的新型企业组织形式,由于虚拟企业具有可重构、可复用及可伸缩的特性,构建虚拟企业优化模型是分析虚拟企业管理的关键步骤
由于双线性配对的应用使得基于身份的加密体制得到了快速发展,基于身份加密体制取得了不少成果,已成为现在密码学领域中一个十分活跃的热点方向。基于身份加密的密码体制减少
目前,许多企业已建成多个信息管理系统,这些系统各自独立,用户与系统、企业内各部门之间均是点对点的信息结构,这种信息结构使得用户需要在不同的系统之间进行切换和登录认证,数据
计算机产业在近几十年来迅速地发展,随着性能与功耗的提升,二者之间开始相互制约,如何提高系统的能效变得亟不可待。精确的功耗估算能够为操作系统调度、软硬件能效优化提供
通信系统中的安全问题是依靠密码体制来解决的。现代密码体制总是假定算法是公开的,因此密码系统的安全就完全取决于密钥的安全,密钥是密码系统的核心。由于对称加密在效率上的
网络的介入使教育的面貌焕然一新,而网络的开放性、媒体形式的多样性、虚拟、跨地域、资源丰富的特点,使之成为协作学习的天然载体。本文立足于对协作学习发展现状理性思考和深