一种数据流频繁闭合项集挖掘算法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:Free0412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,许多领域产生的数据是在时间维度上严格有序、在数值上不断变化的无限的数据序列,由此产生数据流模型。数据流频繁项集挖掘作为数据流挖掘的一个新兴研究热点,挖掘得到的项集与关联规则的数量往往大得惊人,而且难以理解与运用,这就需要一种更先进的数据流频繁项集挖掘技术的出现。数据流频繁闭合项集挖掘技术应运而生。CFI-Stream算法是一种在线挖掘最近的频繁闭合项集的算法。分析该算法发现,它存在两个极其影响算法性能的问题:其一,该算法存在一个很大的性能瓶颈——递归调用Add函数,并且递归的深度和次数随着事务长度的增加而呈指数级增长,这极大地影响了算法的时间和空间复杂度。其二,该算法中对于事务的最大项集及其子集的闭包检查,每次都是全局遍历,造成很多不必要的检查,影响了时间效率。针对上述两个方面的问题,本论文提出一种新的频繁闭合项集挖掘算法,采用有序字典序树的数据结构和差集结点的形式作为算法的数据结构。采用分而治之的策略,对每一个分支进行独立的挖掘,从一个分支结束到转向另一个分支时,会根据两个分支之间的不同前缀,选择合适的子集进行递归调用,大大的减少了递归的次数和深度。采用宽度优先搜索和深度优先搜索相结合的方法,其中,深度优先搜索的策略能够保证在进行交集运算的同时记住需要进行递归调用的子集,此子集在很大程度上缩短了长度,因为它省去了自根结点起的所有前缀的项目,只保留差集。实验表明新的频繁闭合项集挖掘算法在一定程度上降低了时空复杂度,尤其在稀疏型数据集环境下,该算法所体现的优越性更加突出。
其他文献
无线传感器网络集成了传感技术、嵌入式计算、分布式信息处理和无线通信技术,能够协作地实时监测、感知和采集各种监测对象的信息,并进行处理。无线传感器网络路由协议的设计
随着网络技术的快速发展和广泛应用,特别是我国国民经济和社会信息化进程的全面加快,网络与信息系统的基础性、全局性作用日益增强,网络信息安全已经成为国家安全的重要组成
本文深入研究了当前化学信息管理系统和虚拟筛选系统的发展现状及其存在的问题,分析了现有的化学信息学软件技术及虚拟筛选工作流程,针对现如今新药研究周期长、效率低这一现
以信息化、数字化、网络化为特点的社会的发展对国家以及社会生活安全性提出了全新的要求,在这种环境下,传统的安全技术遭到了巨大的挑战。而生物特征认证技术是解决信息化、
IP网络技术和信息处理技术的迅猛发展使得视频会议系统得到了广泛的关注。视频会议系统作为一种新型的通信和交流工具,突破了地域的限制,可以提供更为便捷、灵活、全面的视音
P2P网络作为一种建立在应用层的新型覆盖网络,相比传统的C/S型网络,具有无中心化、自治以及匿名等特点。但是由于节点的行为不受约束,导致节点间缺乏信任,P2P网络也遭受着各
Ad hoc网络是指在没有固定基础设施的情况下,由具有无线通信功能的节点自组织形成的多跳的无线网络。它适用于需要临时架设网络的场所,具有广阔的发展前景。在Ad hoc网络中,
无线传感器网络(Wireless Sensor Networks,WSN)是集无线通信、嵌入式计算于一体的新兴的分布式自组织数据采集网络,通常布设在特定的区域完成一些特定的功能。在军事、环境
生物网络模块化结构识别和人类疾病基因预测在生物信息学领域具有重要研究价值。本文从蛋白质相互作用网络的拓扑特征出发,认为网络中节点的模块归属性可以由它的周围邻居节
随着计算机网络和数字技术的快速发展,传统媒体逐步向数字媒体转变,出现了越来越多的数字作品。但是,数字作品易于篡改、易于复制,使得盗版问题非常严重。因此,设计安全、有效的数