基于关联规则的数据挖掘模型SM-MINER的设计与实现

来源 :上海海运学院上海海事大学 | 被引量 : 1次 | 上传用户：as33as

【摘要】

：

数据挖掘是20世纪90年代中期兴起的一项新技术，它是知识发现过程中的关键步骤，也是当前知识发现领域中的一个研究热点。近年来，国内外学术界和企业界，都非常重视对数据挖掘技术和

【作者】

：

张友平

【机构】

：

上海海事大学

【出处】

：

上海海运学院上海海事大学

【发表日期】

：

2002年01期

【关键词】

：

数据挖掘关联规则 Apriori算法可信度支持度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是20世纪90年代中期兴起的一项新技术，它是知识发现过程中的关键步骤，也是当前知识发现领域中的一个研究热点。近年来，国内外学术界和企业界，都非常重视对数据挖掘技术和软件工具的研究和开发，也取得一些成果。关联规则的发现是数据挖掘中的一项重要任务。关联规则表示数据库中一组对象之间某种关联关系的规则(例如“同时发生”或者“从一个对象可以推出另一个”)。关联规则的简单表示形式是：X→Y，X称作规则的前提，Y是规则的结果。通常，对于一个规则的衡量有两个标准：支持度(support)和可信度(confidence)。挖掘关联规则的问题就是找出这样的一些规则：他们的support和confidence分别大于用户指定的最小support和最小confidence限度。这个问题的主要挑战性在于数据量巨大(数据库容量达到若干GB字节，甚至TB字节)，因此算法的效率是关键。目前研究的重点是如何找出large itemset，围绕这个问题，R．Agrawal等在1994年提出了Apriori算法，它是一种经典的频集方法，但是Apriori算法也存在一些固有的缺陷：①多次重复扫描数据库，增加了挖掘过程中I／O操作的次数，加重了CPU的负担，影响计算效率。②无法对稀有数据进行分析。本文首先从理论和应用两个角度分析了Apriori算法的局限性，并且针对该算法的不足，设计了一种新的算法，新的算法：①将可信度放在首位，能够对稀有数据进行分析。②扫描数据库一次，将数据库中的交易信息转换成位图结构体，以后的挖掘都以该位图结构体为基础，这样就避免过多地扫描数据库，减轻了系统的I／O负载，获得较好的计算效率。然后，根据新的挖掘算法，结合超市日常零售业务的实际情况，设计了面向超市行业的数据挖掘模型SM-MINER，在挖掘模型SM-MINER的实现过程中，运用支持多平台的JAVA开发语言，采用了面向对象的设计和开发方法。同时，在知识的表达和解释机制方面也作了很多工作，使知识的表达不仅限于数字和符号，而是更容易理解的表格、图形等。最后，总结出设计挖掘算法和挖掘模型的方法，为将来超市行业数据挖掘系统的设计和研究提供了一种新思路。 SM-MINER挖掘模型以大型超市为行业背景，功能完善，操作简单，可扩展性基于关联规则的数据挖掘模型一SM．MINER的设计与实现强。同时，SM－－MINER挖掘模型在H次开发上并不受行业限制，通过分析具体的行业领域数据，本模型完全可以应用到银行、保险、气象等其它行业中。

其他文献

数字图像处理中数据采集的控制技术

火炮身管膛内疵病测试系统属智能检测技术的应用研究，是现代光学、精密机械、电子学与计算机等项高新技术在军用技术中的有效组合及其应用，是应用计算机实时控制，实现高精度、高

学位

数字图像单片机数据采集精确定位接口

多机空战仿真模型研究

该文研究了飞机运动模型和飞机截击空中目标的方法,提出了采用了二部图的最大匹配算法来实现多机协同攻击多目标的战术决策的新方法,将复杂的多机空战分解成为相对简单的双机

学位

仿真协同攻击多机空战双机空战

Bloom Filter和Weighted Bloom Filte的比较和研究

随着Internet技术和WWW服务的发展，Web网络流量的增加和网页访问的延迟日益引起人们的关注，这两个问题影响了Internet的持续发展。网络缓存技术是解决这两个问题的一种至关重要

学位

网络缓存代理缓存缓存共享Bloom filter错误命中

数据一致性在网络存储系统中的研究

与传统的存储系统相比,网络存储集成了存储技术和网络技术,并采用更优的体系结构为数据存储提供了更大的容量,更好的性能和更高的可靠性.然而因为网络存储面向多用户提供服务

学位

数据一致性文件系统网络存储存储区域网络附网存储异构环境

协议制导的数据帧数据提取技术

目前计算机与具有不同应用层协议的设备进行通讯时,需要编写各自专用通信接口程序。这些通信接口程序的结构往往非常类似,最大的区别在于对网络接口收到的数据帧的理解和解释

学位

协议分析词法分析形式化描述

基于控制的Web预取的分析与研究

该文的主要研究目的就是为了解决互联网中浏览速度慢的问题,但是解决方法如果不恰当,反而使问题更恶化.直接和贪心的网络预取方法会增大网络业务的突发性,导致网络利用率下降

学位

预取控制网络性能测量网络带宽用户访问模式群集网络预取

基于IEEE 802.11b的无线局域网络管理系统的设计与实现

随着无线技术的普及和发展,人类摆脱了传统有线网络的物理布线的束缚,越来越多的了解到无线网络所带给人们的方便和灵活的服务.构建无线网络环境下的网络教育逐步引起人们的

学位

流媒体无线局域网络视频质量控制准入控制网络监测

概念网的建模、实现与应用

基于概念的信息检索是当前智能信息检索研究的重点，而概念的表示与组织则是概念检索中的主要问题。本文针对概念表示，提出了概念的对象网络模型，该模型以一个对象的观点来认识概

学位

概念网概念对象节点概念语义关系概念联想汉语分词新词学习特征概念词集类别特征文本匹配

基于角色的访问控制(RBAC)系统中职责分离(SoD)的研究

职责分离(Separation of Duty,soD)是防止欺骗和错误的一种基本手段.在基于角色的访问控制系统中,通过实现不同的职责分离原则来达到不同的安全策略.RSL用集合和系统函数作为

学位

职责分离角色访问控制RSL角色冲突权限冲突安全状态

导航地图数据库快速修测技术研究

导航地图数据库是在地图数据库的基础上,根据导航用户的需求提取相应的要素获得的,其本质是一种具有专题图特性的数字地图.该文所要讨论的就是对导航地图数据库进行快速更新

学位

修测导航地图差分GPS近景摄影测量

基于关联规则的数据挖掘模型SM-MINER的设计与实现

其他学术论文