项集分布挖掘及其在模式分析中的应用

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:zfh115101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十几年来,随着科学技术的不断发展,人们产生和收集数据的能力迅速提高,因而数据规模急剧增加,仅仅依靠现有的技术是很难分析这些海量数据的,于是出现了“数据爆炸但知识贫乏”的现象。人们希望能够有新的工具自动的分析和整理如此庞杂的数据,从中发现有价值的东西,为决策提供必要的支持。面对这一挑战,数据挖掘技术应运而生了。数据挖掘技术是指从大量的、不完全的、有噪声的、模糊的、随机的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解和运用的知识的过程,它是涉及数据库、人工智能、统计学等众多学科的一个非常活跃的研究领域。数据挖掘不仅吸引了众多学者为其投入极大的热情,同时也引起了产业界人士的广泛关注。关联规则不仅仅是数据挖掘领域的一个重要研究课题,而且对数据挖掘技术的发展和应用都起到了举足轻重的作用,因而吸引了许多学者对关联规则挖掘的技术和方法进行深入的研究,例如对Apriori类算法的研究。这些研究基本集中于算法的可扩展性和提高算法的效率。一般说来,在数据库中当且仅当项集的支持度不小于用户给定的最小支持度阈值时称该项集为频繁项集。最小支持度的设置可能会导致两个问题(1)最小支持度的设定对于用户来说是一个艰巨的任务,最小支持度的设定是否合理直接影响到最后的挖掘结果;(2)频繁项集的挖掘可能会导致产生大量的模式(最后导致产生大量的规则)。鉴于支持度-置信度模型的局限性,许多数据挖掘工作者提出了各种方案试图冲破该模型的限制,其中主要包括:挖掘前k个频繁闭模式[18];将支持度的限制从挖掘时推迟到评价时[21];由置信度驱动的挖掘模型[22];以及不需要最小支持度的挖掘策略[23],这几种方法都试图在某种程度上避免设置最小支持度,这些模型为挖掘关联规则提供了新的视角。针对支持度-置信度模型需要用户设定最小支持度的问题,本论文提出了一种基于模糊控制的不依赖于具体数据库的挖掘策略FARDIMS,即用户无须对具体的数据库有非常深入的了解,只要根据意愿输入挖掘水平参数,系统就可以根据各数据库中项集分布的具体情况将其自动转化为适合于该数据库的支持度阈值,从而提高了挖掘系统的自动化与智能化。同时,在频繁项集的应用中还存在一个基本的问题,挖掘系统产生的频繁项集对于“频繁”的可信程度究竟是多少——在做出决策时必须要重视的问题。对于在数据库中发现的所有频繁项集,即使它们具有不同的支持度,似乎在做出决策时都同样重要,这是否会导致决策的失误呢?一般说来,在实际应用中,一个支持度较高的项集应该比支持度较低的项集具<WP=6>有更高的对于“频繁”的可信度,但是,当数据库中数据分布情况未知时,我们并没有任何参数来度量一个频繁项集在多大程度上比另一个频繁项集具有更高的频繁可信度,这是因为支持度并不能反映项集对于频繁的可信程度,因而产生了分析项集对于频繁可信度的要求。在本论文中,我们提出了项集频繁可信度的概念,并且给出了两种估计项集频繁可信度的方法,使得项集分布挖掘模型具有更好的可扩展性。综上所述,本文所做的主要工作是:提出了一种基于模糊控制的不依赖于具体数据库的挖掘策略FARDIMS。阐述了数据库中项集分布情况对产生频繁项集的影响。给出了一种通过分析数据库中项集的分布情况获得项集频繁可信度的方法。提出了两种估计项集频繁可信度的方法SBMEIS和EAKTINA,从而项集分布挖掘模型具有更好的可扩展性。为了对提出的方法进行评价,我们作了大量的实验。实验结果表明,FARDIMS与传统的挖掘算法相比具有更好的自动性和智能性;SBMEIS和EAKTINA 能够较好的估计项集的分布情况,从而可以较准确的获得项集对于频繁的可信度,使用户对数据库有更加深入的了解,为做出决策提供更加全面的信息。
其他文献
近年来,高性能计算机和大型并行计算技术进入了高速发展阶段,并已投入了各个领域的实际使用.一些集群式超级计算机(Clustering Computer)以高性价比优势已成为国际上高性能计
多媒体技术和网络技术的发展,给人们带来了丰富多彩的视听娱乐的数字产品。但是由于数字产品复制不会引起质量下降,因此出现的大量盗版现象严重地损害了生产商和著作者的积极性
该文主要研究求解网络优化中的整数规划、背包、线性规划等问题的新算法及其高效并行算法.针对求解线性规划松弛算法在选取松弛变量时存在的不足,提出了线性规划问题有最优解
跨地域共享资源的协同设计与制造是快速制造业发展的必然趋势,为了节约成本和保证安全性,采用虚拟专用网(VPN),Virtual Private Network)技术建设快速制造网络平台是一种理想
计算机技术和通信技术的发展使移动计算成为现实.它是无线通信、网络技术与移动计算设备相结合的产物,是一种更加灵活、复杂的分布式计算环境.移动数据库技术是指支持移动计
学位
电子邮件是Internet上最大的应用。个人利用电子邮件传输私人信件,公司利用它传送商业计划及数据,政府利用它发送公文,……,电子邮件无处不在!然而遗憾的是,电子邮件的世界是明信
以多媒体技术、计算机网络技术为代表的科学技术的迅猛发展给当代社会带来了巨大影响和深刻变革。信息经济带来了人们生活方式、生产方式的转变,使社会经济发生了结构性的转变
随着信息技术、网络技术的快速发展,现代企业比以往更依赖于能极大地提高管理水平和工作效率,增强企业市场敏捷性的分布式、网络化信息集成平台。在这个信息集成平台中,存放着大
鸟类作为生活中常见的动物,常见于电影、动画短片、游戏、虚拟现实等领域的作品中,因此对鸟类进行数字仿真具有较广泛的图形学应用。而鸟类最重要的特征是其覆盖全身的羽毛,羽毛