项集分布挖掘及其在模式分析中的应用

来源 :广西师范大学 | 被引量 : 0次 | 上传用户：zfh115101

【摘要】

：

近十几年来，随着科学技术的不断发展，人们产生和收集数据的能力迅速提高，因而数据规模急剧增加，仅仅依靠现有的技术是很难分析这些海量数据的，于是出现了“数据爆炸但知识贫乏”的

【作者】

：

卢景丽

【机构】

：

广西师范大学

【出处】

：

广西师范大学

【发表日期】

：

2004年期

【关键词】

：

数据挖掘关联规则模糊控制项集分布抽样估计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近十几年来，随着科学技术的不断发展，人们产生和收集数据的能力迅速提高，因而数据规模急剧增加，仅仅依靠现有的技术是很难分析这些海量数据的，于是出现了“数据爆炸但知识贫乏”的现象。人们希望能够有新的工具自动的分析和整理如此庞杂的数据，从中发现有价值的东西，为决策提供必要的支持。面对这一挑战，数据挖掘技术应运而生了。数据挖掘技术是指从大量的、不完全的、有噪声的、模糊的、随机的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解和运用的知识的过程，它是涉及数据库、人工智能、统计学等众多学科的一个非常活跃的研究领域。数据挖掘不仅吸引了众多学者为其投入极大的热情，同时也引起了产业界人士的广泛关注。关联规则不仅仅是数据挖掘领域的一个重要研究课题，而且对数据挖掘技术的发展和应用都起到了举足轻重的作用，因而吸引了许多学者对关联规则挖掘的技术和方法进行深入的研究，例如对Apriori类算法的研究。这些研究基本集中于算法的可扩展性和提高算法的效率。一般说来，在数据库中当且仅当项集的支持度不小于用户给定的最小支持度阈值时称该项集为频繁项集。最小支持度的设置可能会导致两个问题（1）最小支持度的设定对于用户来说是一个艰巨的任务，最小支持度的设定是否合理直接影响到最后的挖掘结果；（2）频繁项集的挖掘可能会导致产生大量的模式（最后导致产生大量的规则）。鉴于支持度-置信度模型的局限性，许多数据挖掘工作者提出了各种方案试图冲破该模型的限制，其中主要包括：挖掘前k个频繁闭模式[18]；将支持度的限制从挖掘时推迟到评价时[21]；由置信度驱动的挖掘模型[22]；以及不需要最小支持度的挖掘策略[23]，这几种方法都试图在某种程度上避免设置最小支持度，这些模型为挖掘关联规则提供了新的视角。针对支持度-置信度模型需要用户设定最小支持度的问题，本论文提出了一种基于模糊控制的不依赖于具体数据库的挖掘策略FARDIMS，即用户无须对具体的数据库有非常深入的了解，只要根据意愿输入挖掘水平参数，系统就可以根据各数据库中项集分布的具体情况将其自动转化为适合于该数据库的支持度阈值，从而提高了挖掘系统的自动化与智能化。同时，在频繁项集的应用中还存在一个基本的问题，挖掘系统产生的频繁项集对于“频繁”的可信程度究竟是多少——在做出决策时必须要重视的问题。对于在数据库中发现的所有频繁项集，即使它们具有不同的支持度，似乎在做出决策时都同样重要，这是否会导致决策的失误呢？一般说来，在实际应用中，一个支持度较高的项集应该比支持度较低的项集具<WP=6>有更高的对于“频繁”的可信度，但是，当数据库中数据分布情况未知时，我们并没有任何参数来度量一个频繁项集在多大程度上比另一个频繁项集具有更高的频繁可信度，这是因为支持度并不能反映项集对于频繁的可信程度，因而产生了分析项集对于频繁可信度的要求。在本论文中，我们提出了项集频繁可信度的概念，并且给出了两种估计项集频繁可信度的方法，使得项集分布挖掘模型具有更好的可扩展性。综上所述，本文所做的主要工作是：提出了一种基于模糊控制的不依赖于具体数据库的挖掘策略FARDIMS。阐述了数据库中项集分布情况对产生频繁项集的影响。给出了一种通过分析数据库中项集的分布情况获得项集频繁可信度的方法。提出了两种估计项集频繁可信度的方法SBMEIS和EAKTINA，从而项集分布挖掘模型具有更好的可扩展性。为了对提出的方法进行评价，我们作了大量的实验。实验结果表明，FARDIMS与传统的挖掘算法相比具有更好的自动性和智能性；SBMEIS和EAKTINA 能够较好的估计项集的分布情况，从而可以较准确的获得项集对于频繁的可信度，使用户对数据库有更加深入的了解，为做出决策提供更加全面的信息。

其他文献

借助并行遗传算法对EST序列拼接问题的研究

近年来,高性能计算机和大型并行计算技术进入了高速发展阶段,并已投入了各个领域的实际使用.一些集群式超级计算机(Clustering Computer)以高性价比优势已成为国际上高性能计

学位

生物信息学EST序列新基因发现并行遗传算法

视频水印技术及基于对象的MPEG-4视频流水印方案

多媒体技术和网络技术的发展，给人们带来了丰富多彩的视听娱乐的数字产品。但是由于数字产品复制不会引起质量下降，因此出现的大量盗版现象严重地损害了生产商和著作者的积极性

学位

数字水印速率伸缩性小波变换MPEG-4

网络优化中的整数规划算法研究

该文主要研究求解网络优化中的整数规划、背包、线性规划等问题的新算法及其高效并行算法.针对求解线性规划松弛算法在选取松弛变量时存在的不足,提出了线性规划问题有最优解

学位

网络优化整数规划背包问题并行算法存取冲突高性能计算

基于PKI的IPSec VPN技术在快速制造网络中的研究与应用

跨地域共享资源的协同设计与制造是快速制造业发展的必然趋势,为了节约成本和保证安全性,采用虚拟专用网(VPN),Virtual Private Network)技术建设快速制造网络平台是一种理想

学位

VPNIPSecPKI集中式管理安全策略快速制造

移动客户端数据管理模型研究及实现

计算机技术和通信技术的发展使移动计算成为现实.它是无线通信、网络技术与移动计算设备相结合的产物,是一种更加灵活、复杂的分布式计算环境.移动数据库技术是指支持移动计

学位

移动数据库移动代理移动计算环境移动数据管理语义片段

基于混合策略的维吾尔语形态还原技术研究

学位

基于PKI的安全电子邮件系统的设计与实现

电子邮件是Internet上最大的应用。个人利用电子邮件传输私人信件，公司利用它传送商业计划及数据，政府利用它发送公文，……，电子邮件无处不在!然而遗憾的是，电子邮件的世界是明信

学位

电子邮件数字签名数据加密PKICASMTPPOP3MIMEMOSS

基于Web的协作学习平台（Web CL）的设计与开发

以多媒体技术、计算机网络技术为代表的科学技术的迅猛发展给当代社会带来了巨大影响和深刻变革。信息经济带来了人们生活方式、生产方式的转变，使社会经济发生了结构性的转变

学位

远程教育传统教育Web CL多媒体技术网络数据库技术Java技术

企业信息集成平台中电子文档的安全存储技术研究

随着信息技术、网络技术的快速发展，现代企业比以往更依赖于能极大地提高管理水平和工作效率，增强企业市场敏捷性的分布式、网络化信息集成平台。在这个信息集成平台中，存放着大

学位

电子文档自主访问控制强制访问控制基于角色的访问控制数据加密标准LZW压缩算法

高效羽毛覆盖系统的设计及实现技术研究

鸟类作为生活中常见的动物，常见于电影、动画短片、游戏、虚拟现实等领域的作品中，因此对鸟类进行数字仿真具有较广泛的图形学应用。而鸟类最重要的特征是其覆盖全身的羽毛，羽毛

学位

数字仿真羽毛造型覆盖系统表面采样生长优先级碰撞检测

项集分布挖掘及其在模式分析中的应用

与本文相关的学术论文