论文部分内容阅读
近十几年来,随着科学技术的不断发展,人们产生和收集数据的能力迅速提高,因而数据规模急剧增加,仅仅依靠现有的技术是很难分析这些海量数据的,于是出现了“数据爆炸但知识贫乏”的现象。人们希望能够有新的工具自动的分析和整理如此庞杂的数据,从中发现有价值的东西,为决策提供必要的支持。面对这一挑战,数据挖掘技术应运而生了。数据挖掘技术是指从大量的、不完全的、有噪声的、模糊的、随机的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解和运用的知识的过程,它是涉及数据库、人工智能、统计学等众多学科的一个非常活跃的研究领域。数据挖掘不仅吸引了众多学者为其投入极大的热情,同时也引起了产业界人士的广泛关注。关联规则不仅仅是数据挖掘领域的一个重要研究课题,而且对数据挖掘技术的发展和应用都起到了举足轻重的作用,因而吸引了许多学者对关联规则挖掘的技术和方法进行深入的研究,例如对Apriori类算法的研究。这些研究基本集中于算法的可扩展性和提高算法的效率。一般说来,在数据库中当且仅当项集的支持度不小于用户给定的最小支持度阈值时称该项集为频繁项集。最小支持度的设置可能会导致两个问题(1)最小支持度的设定对于用户来说是一个艰巨的任务,最小支持度的设定是否合理直接影响到最后的挖掘结果;(2)频繁项集的挖掘可能会导致产生大量的模式(最后导致产生大量的规则)。鉴于支持度-置信度模型的局限性,许多数据挖掘工作者提出了各种方案试图冲破该模型的限制,其中主要包括:挖掘前k个频繁闭模式[18];将支持度的限制从挖掘时推迟到评价时[21];由置信度驱动的挖掘模型[22];以及不需要最小支持度的挖掘策略[23],这几种方法都试图在某种程度上避免设置最小支持度,这些模型为挖掘关联规则提供了新的视角。针对支持度-置信度模型需要用户设定最小支持度的问题,本论文提出了一种基于模糊控制的不依赖于具体数据库的挖掘策略FARDIMS,即用户无须对具体的数据库有非常深入的了解,只要根据意愿输入挖掘水平参数,系统就可以根据各数据库中项集分布的具体情况将其自动转化为适合于该数据库的支持度阈值,从而提高了挖掘系统的自动化与智能化。同时,在频繁项集的应用中还存在一个基本的问题,挖掘系统产生的频繁项集对于“频繁”的可信程度究竟是多少——在做出决策时必须要重视的问题。对于在数据库中发现的所有频繁项集,即使它们具有不同的支持度,似乎在做出决策时都同样重要,这是否会导致决策的失误呢?一般说来,在实际应用中,一个支持度较高的项集应该比支持度较低的项集具<WP=6>有更高的对于“频繁”的可信度,但是,当数据库中数据分布情况未知时,我们并没有任何参数来度量一个频繁项集在多大程度上比另一个频繁项集具有更高的频繁可信度,这是因为支持度并不能反映项集对于频繁的可信程度,因而产生了分析项集对于频繁可信度的要求。在本论文中,我们提出了项集频繁可信度的概念,并且给出了两种估计项集频繁可信度的方法,使得项集分布挖掘模型具有更好的可扩展性。综上所述,本文所做的主要工作是:提出了一种基于模糊控制的不依赖于具体数据库的挖掘策略FARDIMS。阐述了数据库中项集分布情况对产生频繁项集的影响。给出了一种通过分析数据库中项集的分布情况获得项集频繁可信度的方法。提出了两种估计项集频繁可信度的方法SBMEIS和EAKTINA,从而项集分布挖掘模型具有更好的可扩展性。为了对提出的方法进行评价,我们作了大量的实验。实验结果表明,FARDIMS与传统的挖掘算法相比具有更好的自动性和智能性;SBMEIS和EAKTINA 能够较好的估计项集的分布情况,从而可以较准确的获得项集对于频繁的可信度,使用户对数据库有更加深入的了解,为做出决策提供更加全面的信息。