含负项目的关联规则挖掘算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:qunli19890523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机技术的发展、数据管理技术的成功应用、企业内部信息化程度的不断提高,各个应用领域的数据库中都积累了海量的数据。利用数据挖掘技术能够从大规模的数据中获取正确的、有趣的、潜在有价值的知识。而关联规则挖掘则是其中一个重要的研究方法,具有重要的理论价值和广泛的应用前景。当前,传统的正关联规则的挖掘受到了相当的关注,对于包含负项目的关联规则却并未给予足够的重视。然而在很多领域中,只挖掘出传统的关联规则往往是不够的,需要对数据项的否定项进行挖掘。因此有必要研究事物负属性之间的关联关系。现有的挖掘含负项目的关联规则算法为数不多,而且多是基于Apriori思想的迭代算法,需要对数据集进行多次扫描,同时生成大量的候选频繁项集。针对这些不足论文提出一种基于频繁模式树的频繁项集挖掘算法。算法借用FP-growth算法中频繁模式树这种压缩存储事务的数据结构,因此具有无需多次扫描数据库,不用生成大量候选项集的优点。除此之外,算法对频繁模式树中每个节点增加一个位串来存储该项目的前缀项目,以避免在模式扩展的时候频繁的遍历子树。实验表明,论文提出的算法比现有的同类挖掘算法具有更好的效率。另外,在含负项目的关联规则挖掘中,由于负项目的引入使得频繁项集的搜索空间变得更加巨大,而同时挖掘出的负关联规则数量也随之增大。但其中很多规则对用户来说是不感兴趣的,而且可能包含一些冗余和错误的规则。因此在传统的“支持度——置信度——兴趣度”评价标准之上,引入了最大支持度的概念,在生成频繁项集阶段就将没有意义的项集排除掉,以使得挖掘结果更有意义。实验结果表明,论文提出的改进算法是正确有效的。
其他文献
可扩展的标记语言(Extensible Markup Language ,XML)的出现改变了Web的基本面貌。XML具有许多优点: XML具有半结构化、自描述性、灵活性、可扩展性等特点,实现了结构、内容
随着计算机和网络技术的发展,多媒体已被广泛地运用到人们社会生活中的各个领域。同时,多媒体通信的安全问题也日益受到关注,而密码学是解决这一问题的首要技术。与文本数据
随着互联网规模的不断增长,作为IPv6重要组成部分的移动IPv6协议受到广泛欢迎。IPv6在制定之初就考虑到了要解决移动性问题,因此它的基本理论中就有许多是为解决移动问题而提
入侵检测技术是网络信息安全的核心技术之一,入侵检测本质上是一个模式识别问题。支持向量机是当前模式识别领域的研究热点之一,利用支持向量机进行建模,不仅可以解决推广能
互连网络是实现多计算机系统中处理器之间相互通信的有效机制,系统的可靠性在很大程度上依赖于互连网络的可靠性,它是决定系统性能的重要因素之一。随着系统规模的扩大,系统
磁盘阵列技术利用冗余的磁盘来解决磁盘的单点故障问题,然而构成磁盘阵列系统的各个硬件模块,如电源、风扇和控制器,也可能发生故障。由于控制器需要和主机通信,对其进行容错
在互联网不断发展的过程中,Web服务技术已成为其中发展的一大热潮,随之而来的是越来越多功能性相似的Web服务出现在了用户面前,那么怎样从这些功能相近的服务中找出满足用户
随着信息技术的飞速发展,人们从信息缺乏的时代过渡到信息极为丰富的数字化时代。在这个数字化的时代里,人们可以获得越来越多的数字化信息包括文本、数字、图形、图像、声音
多数企业的网络环境由多个厂商提供的设备、操作系统以及网络应用程序组成,每个厂商提供支持特定协议的管理系统对自己的产品进行管理,这使得网络管理变的十分复杂。很明显,管理
眼底视网膜图像质量评价是医学影像分析中一个重要问题。图像的质量影响诊断结果的准确性和可靠性,高质量的眼底视网膜图像是准确诊断病情的前提。而影响图像质量的因素很多