基于位图的闭序列模式挖掘

来源 :河南大学 | 被引量 : 0次 | 上传用户:inspisee1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式是数据挖掘研究中一个重要的研究课题,其主要研究目的是从大型时序数据库中发现事件之间存在的隐藏的、有趣的序列关系。经典序列模式挖掘算法大都致力于挖掘序列模式全集,其空间效率低。挖掘闭序列集合能在保持信息完备性的前提下,比挖掘序列模式全集更加精简有效。本文着重对此进行了研究,研究内容主要包括以下几个部分:1.深入研究了序列模式挖掘经典算法。主要对基于前缀投影数据库的无候选序列生成的算法(PrefixSpan,CloSpan)和基于位图的SPAM算法进行了研究。对这些算法做了定性分析,比较了算法的运行效率,总结了每种算法的优点及不足。2.在对闭序列模式经典算法CloSpan的研究基础上,参考SPAM算法所采用的数据结构,将序列数据库用位图来表示,设计了基于位图的闭序列模式挖掘算法CSPBB。该算法是一个深度优先算法,采用前缀投影方法,处理的对象是用位图表示的序列数据库。通过算法分析和实验比较可知:对于长序列模式数据,CSPBB算法在时间和空间开销上均优于CloSpan算法。3.参考多维序列模式挖掘算法UniSeq、HTSeq,设计了多维闭序列模式挖掘算法Mul_Clo_Seq。该算法基本思想是:分裂多维序列数据库,分别进行闭序列模式与频繁多维信息挖掘,然后将二者结合、剪枝,最终生成多维闭序列模式。通过算法分析和实验比较可知:Mul_Clo_Seq的算法效率优于UniSeq算法。
其他文献
随着网络通信技术的快速发展,网络开始承载越来越多的应用服务,这对网络的服务质量、流量控制和网络管理均提出了很高的要求。对流量的分析与预测是网络管理和性能分析的基础,本
检测技术是对事物进行量性分析的手段,是人们认识和研究事物的重要方法。随着社会和科学的不断发展,研究对象的不断扩大,分工的日益细化深化、交叉学科和边沿学科的诞生,对检
近年来,快速发展的无线通信技术和计算机网络大大推动了无线传感器网络(Wireless Sensor Network,简称WSN)在实际生活中应用的快速普及。WSN集成了无线通信以及嵌入式等技术,
近年来,我国教育信息化建设步伐加快,教育信息化水平不断提高。一方面,教育管理信息化建设的范围不断扩大,已涵盖各级各类学校;另一方面,教育信息化的领域不断延伸,已覆盖了
龙芯2E处理器是中国科学院计算技术研究所于2006年研制成功,具有自主知识产权的64位高性能通用RISC处理器。BIOS虽然体积很小,但是它负责开机自检,板级初始化,以及加载操作系
P2P网络从诞生至今一直都是学术领域研究的热点,在它的发展过程中其拓扑结构一共经历了从中心拓扑结构到全分布式非结构化拓扑结构,再到全分布式结构化拓扑结构,最后到半分布
随着信息技术的发展和市政管网建设的规模扩大,很多管网建设单位都建设了自己的市政管网管理系统来提高自己的效率,由于设计施工单位众多,且地域上相互重叠,导致很多单位知道
物流管理系统是借助计算机来简化工作强度,使工作人员可以更方便管理企业商品的软件。建立一个完善的物流管理系统,可以实现企业管理的智能化,提高工作效率,减少管理人员的工作量
Agent与多Agent技术是一种有效解决复杂分布式系统问题的方法。本文将Agent与多Agent理论用于洪水预报系统的研究,重点研究分析系统的体系结构、基于BP-GA混合算法的预报模型
中文自动分词系统是利用计算机对中文文章进行自动分词、识别的计算机应用系统,它包括基本的自动分词方法、歧义处理和命名实体的识别等基本模块,其各部分相互依赖,共同决定该系