嵌入式与导出式频繁子树挖掘算法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:liuya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
树结构数据以其表达事物清晰、完整等优势,在计算机网络、Web挖掘、生物信息分析、XML文档挖掘等领域有着日趋重要的应用。本文针对有序标号树,以最右路径扩展技术为基础,从改进投影库的构造方法、减小投影库的规模和提高投影库中节点的计数效率等方面,对频繁嵌入式与导出式子树挖掘算法进行了研究。主要研究工作如下:(1)给出一种基于离散区间的嵌入式频繁子树挖掘算法DIFTM。首先,采用了最右路径扩展的方法,由频繁k-子树可直接扩展成为频繁(k+1)-子树,避免了候选生成;其次,利用离散区间构造最右路径投影库,消除了部分冗余投影,有效地减小了投影库的规模;再次,对投影库中的节点计数时,先找离散区间,再在离散区间上计数频繁节点,避免了对重复投影的重复扫描;最后,采用CSLOGS数据集,实验验证了算法的正确性和有效性。(2)给出一种基于编码的导出式频繁子树挖掘算法EFITM。首先,通过树的宽度优先编码表示原始数据库,使得最右路径投影中不存在冗余节点,减小了投影库中每个投影的编码长度;其次,用带编码的区间表示最右路径上各节点的投影库,消除了冗余投影,减小了整个投影库的规模;最后,理论分析和实验结果表明,该算法是正确的和高效的。
其他文献
伴随着物联网技术的发展和宽带速率的提升,具备远程监控功能的IP摄像机产品在市场上得到应用普及。研发出一套B/S架构下以在线视频监控显示为核心的管理信息系统,将会极大满
嵌入式系统从出现至今已有30多年。随着以计算机软硬件为核心的数字化技术的迅速发展,多媒体技术与互联网应用的广泛普及,嵌入式技术再度成为一个研究热点,许多嵌入式网络应
分类挖掘是数据挖掘的重要研究内容之一,现有的分类规则挖掘算法所得到的规则集中存在大量的冗余,严重影响了分类规则的分类效率与可理解性,因此对挖掘出的冗余分类规则集进
个性化的情感机器人是指在拥有情感的前提下,再加入个性这一特定情感属性的机器人。不同个性的机器人具有不同的行为模式,个性的加入使机器人的情感智能得到进一步的提升,同
随着Internet的快速发展,各种网络服务层出不穷,网络流量不断增大,使得实时在线的流测量变得更困难。为了解决这一问题,人们提出了抽样测量技术,即抽样测量部分流量,然后从统
非负矩阵分解方法是一种近年来被广泛研究的降维方法,现有的非负矩阵分解算法在应用于问题规模逐渐增大的情形时,运算规模随之增大、空间和时间效率不高。本文对此提出一种增
安全,是社会发展和经济建设的永恒主题,良好的安全生产环境和秩序是经济快速发展的重要保障,所以必须重视安全工作。而对重大危险源的辨识和事故隐患的监控是实现安全目标的基础
内容计费(Content-based Charging)是一种新的计费方式,它对网络上的数字信息产品按其内容的不同而进行有区分度计费,尤其适用于业务种类繁多的3G网络的计费需求。3G业务的计
随着无线网络的迅速扩大和配置管理复杂度的提高,一次只能配置一个网元的配置管理系统已经不能满足通信运营商的需求,必须提供统一的全网络配置管理解决方案实现配置管理效率的
随着计算机和网络技术的快速发展,信息系统的数量和规模越来越大,这些信息系统数据的分布性、异构性及大规模的特点使异构数据整合成为一个挑战性的问题。web数据的管理和处