数据挖掘中关联规则算法的分析与优化研究

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:hiss006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度增长。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。面对这一挑战,数据挖掘技术应运而生。数据挖掘(Data Mining,DM)就是从大量的数据中挖掘出人们感兴趣的知识,它是一类深层次的数据分析方法,被认为是解决“数据爆炸知识贫乏”的有效方法之一,最近几年里已被数据库界广泛研究。经过若干年的研究和实践,其经济价值已经显现出来,被广泛应用于科学研究、金融投资、市场营销、保险、医疗卫生、产品制造业、通信网络管理等行业。它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段,其中关联规则挖掘是一种主要的也是用途最广的数据挖掘方法。   本文对KDD(Knowledge Discovery in Databases,数据库中的知识发现)、数据挖掘(Data Mining)和关联规则(Association Rules)等概念作了阐述,为深入讨论作了充分的准备。在对现有关联规则文献的研究基础上,详细的分析了关联规则的基本概念和基本性质,并且对关联规则的典型频繁集挖掘算法Apriori算法进行了归纳、分析和研究,为Apriori改进算法的提出和构造建立了理论上的必要性前提。   本文的重点是Apriori算法的分析研究和改进设计。在研究经典Apriori算法的基础上,给出了一个新的算法,分别从减小事务数据库与候选项目集中的项目规模和引入加权支持度两个方面对Apriori算法进行了优化与改进:一方面,针对在Apriori算法下,要扫描的事务数据库规模与Apriori算法生成的候选频繁项目集个数过多这两个瓶颈问题,新算法尽量缩减两者的规模,使之尽可能高效的产生出频繁项集;另一方面,针对数据库中项目分布不均匀,出现概率相差较大,所挖掘出的关联规则将可能涉及不到出现频率较低的项目的问题,通过给它们赋以不同权值,即引入加权支持度,从而可以挖掘出Apriori挖掘不出但却极具价值的规则。经过优化改进,新算法在时间上的消耗要少于Apriori算法,提高了算法的效率;同时,由于加入权值,使得算法能够挖掘出隐藏在小概率事件后的关联规则,而这些规则恰恰是一般算法易于丢弃或挖掘不出的。
其他文献
本课题以协同工作平台服务系统(CWPS)的研究开发为背景,以分布式对象计算技术思想为指导,结合面向对象/面向构件的方法论,提出了共享接口网关软件模型。运用设计模式等软件体
壳的出现,使软件保护进入了一个新的时代。加壳技术已广泛应用于软件保护,在软件逆向分析、软件解密和恶意软件检测等过程中,软件脱壳已成为十分重要的环节之一。软件壳检测
视频监视系统是安全防范系统的重要组成部分,它是一种防范能力以及实用性都很强的综合系统。然而近年来,随着嵌入式技术、多媒体技术、计算机网络等的快速发展,视频监视系统
2G移动网络为了实现交换与控制的分离,引入移动智能网作为增值业务的开发与运行平台,而3G移动网络为了提供更为开放的业务开发模式,引入应用服务器作为主要的电信业务运行平
调度问题是工农业生产、国防、科研、交通运输以及各种服务行业中普遍遇到的问题。调度问题要研究的主要内容就是根据产品制造需求合理分配产品制造资源,进而达到合理利用产品
对连续语音语料库进行切分或标注是整个连续语音识别系统的基础和前提,而且也是一项非常重要的工作,因为它对语料库的充分利用有重要作用,对连续语音识别系统的性能有重要影
汉字识别系统是将图像数据中的文字信息提取出来的一种系统。根据图像数据的种类,汉字识别系统有着各种各样广泛的应用。比如银行单据识别,电子图书馆,邮政编码自动分类,手写
传统上,发现药物过程主要包括三个阶段:发现、临床前阶段和临床开发。整个过程费时昂贵,却往往效率低下。药物重定位正是在这种情况下提出来的,其目标是通过识别和使用已知的药物,来治疗目标疾病以外的其他疾病。以往的药物重定位方法主要是基于药物基因疾病的关系,而丢弃了许多重要的信息,为了解决这个问题,本文集成各种数据,从多角度推断药物作用,提出了两种新的方法,来解决药物重定位问题。第一种方法关注表型数据,提
关联挖掘作为数据挖掘的一个重要研究分支,其主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,即关联规则。由于形式简单、易于理解,且是从大型数据库中提取知
当前多媒体已经成为信息传递的主要方式,多媒体广泛地应用于各行各业,如广告、教育、医学、商业、娱乐等方面。同时随着计算机和网络技术的快速发展,信息的传递变得越来越方