关联规则挖掘算法研究与应用

来源 :江苏大学 | 被引量 : 0次 | 上传用户:j621212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从大量的、不完全地、有噪声的、模糊的、随机的数据中提取人们感兴趣的知识和规则的过程,数据挖掘的研究已经取得了重大的进展,而且被应用到众多的领域。关联规则挖掘是数据挖掘研究中一个重要课题,它主要用于从给定的数据集中发现频繁出现的项集模式知识。   本文首先介绍了数据挖掘的任务和过程以及它的应用情况和发展趋势,关联规则挖掘的基本概念、分类方法和经典算法,然后重点对如何高效挖掘最大频繁项集、生成关联规则以及缩减规则的规模进行了研究,对根据得到的正规则挖掘隐含的负规则进行了探讨,最后设计并实现了江苏财经职业技术学院教学质量评价分析系统。本文的主要工作和研究成果如下:   1、对如何高效挖掘最大频繁项集进行了研究,针对现有算法中存在的需要超集检测和递归的建立条件频繁模式树问题提出基于有序FP树和NBN策略挖掘最大频繁项集的MMFI算法,对算法的性能和效率进行了分析和实验验证。   2、针对MMFI算法中需要反复检索相同项目结点链影响挖掘效率的问题进一步修改了用于挖掘的数据结构,提出基于含叶子结点链的有序FP树挖掘最大频繁项集的IMMFI算法,通过实验对算法的性能和效率进行了验证。   3、对生成关联规则的方法进行了研究,针对基本生成方法导致的“规则爆炸”问题分析了现有缩减规则规模方法中存在的问题,提出了最大关联规则MAR的概念,类似于用挖掘最大频繁项集取代挖掘完全频繁项集,用挖掘最大关联规则取代挖掘所有的关联规则,提出基于候选规则队列集结构挖掘单个最大频繁项集的最大关联规则的MMARI算法,并用实例对算法的性能进行了验证。   4、分析了用MMARI算法挖掘整个事务数据库的最大关联规则存在的问题,提出了挖掘整个事务数据库最大关联规则的MMARD算法,对算法在不同情况下应选取的策略进行了论证,并通过实例对算法的性能进行了验证。   5、对冗余规则问题进行了研究,提出一种在特定情况下根据挖掘出的正关联规则直接获得隐含的置信度更高的负关联规则的方法。   6、设计并实现了江苏财经职业技术学院教学评价信息分析系统。
其他文献
Web服务作为新一代的平台独立的分布式计算方式,具有适合异构系统集成、易于开发和部署、易于发现和调用等诸多优势,近年来逐渐流行,在很多领域得到了广泛应用,但是Web服务仍然面
一个移动Ad hoc网络(MANET)是一系列相互之间可以通信、完全自组织、自配置无线移动节点的集合。MANET网路由协议用于发现和维护节点之间的路由。Internet接入,通常是指MANET非
伴随着互联网、物联网和移动互联网的快速发展,每天会产生海量数据,数据处于爆炸式的增长状态,这预示着大数据时代的到来。大数据时代的数据具有数量大、结构复杂的特点,导致
近年来,随着人民生活水平的提高,对于食物的营养要求也不断提高,鱼虾等水产品由于其具有高蛋白低脂肪的特点受到大家的青睐。因此,海产品的淡水养殖给养殖户带来了较大的经济收益
在现代企业应用中,多个应用系统或者同一个系统的多个用户之间往往需要进行数据信息交换,如何保证数据传输中的安全变得越来越重要。本文在深入研究现有数据交换技术和保证数
苹果iPhone的面世促进了市场上触摸屏幕手机的发展,越来越多的厂商加强了触摸屏手机的研发力量。美国高通(Qualcomm)公司提出的CDMA(Code Division Multiple Access)技术,由于
交通状态主要表示为交通流状态,宏观上主要是指城市道路交通的拥堵程度。在城市道路交通控制过程中,交通状态的判定是前提和基础。传统的交通状态判定的研究通常是针对高速路
基于半导体的以Flash为存储介质的存储器是一种高性能、低能耗的新兴存储设备,它的问世将逐渐取代以磁记录方式存储数据的硬盘。但由于Flash存储芯片本身容量的限制和芯片中
随着计算机和网络技术的飞速发展,日益普及的互联网为我们提供了大量的经济利益和生活便利的同时,也带来了大量的信息安全问题,如个人隐私信息、商业与军事机密信息的泄露、
随着网页结构的复杂化与内容的多主题化,搜索引擎的结果越来越无法满足人们的需求,因为网页作为最基本的信息获取单位已不再合适,要更准确的获取web上的信息,就必须对网页进