基于信息熵的事务型数据关联规则挖掘研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:my_lyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是大数据时代蓬勃发展的新技术,它通过计算机技术对庞大且复杂的数据库进行数据分析,解决传统统计学无法解决的问题。关联分析是数据挖掘研究中的一个重要分支,又被称作关联规则挖掘。它主要面向的数据类型是事务型数据,用于探寻事物间的关联关系。FP-Growth算法作为关联规则挖掘中的经典算法,通过分而治之的策略发现数据集中各项目间的关联关系。但是,由于其视数据集中各项目“平等一致”的缺陷,会导致挖掘过程中一些重要的关联关系遗漏。因此,加权关联规则挖掘应运而生。然而,现有的加权关联规则算法也存在局限性:没有考虑到数据集系统本身的混乱程度或不确定性。本论文将通过研究事务型数据,提出一种改进的加权关联规则挖掘算法,可有效处理高度混乱的事务型数据集,发现更多潜在或有价值的关联关系。本论文主要包括以下四个方面的内容:第一,从传统统计学以及数据挖掘的角度研究事物间的关联问题,并对事务型数据的类型和特点进行了归纳和总结;第二,对关联分析的相关理论进行了研究和探讨,分析了经典关联算法将数据集中各项目视作“平等一致”的问题,并对现有的一些关联分析算法进行了研究;第三,针对现有加权关联算法不能解决数据集系统本身混乱程度,从而导致在挖掘结果中潜在的关联关系遗漏的问题,引入信息熵的相关理论,提出基于FP-Growth的加权关联规则挖掘改进算法——IEFP-Growth;第四,分别采用经典FP-Growth与IEFP-Growth算法挖掘Crime数据集中的关联规则,对关联结果进行分析与对比,发现改进的算法确实能够发现与经典算法不同且有价值的关联规则,并研究了其适用条件;同时,通过挖掘检验数据集——IMDB数据集中的关联规则,验证了算法对不同数据集的适用性。研究结果表明:第一,由于各项目的重要程度不尽相同,因此对项目加权是关联规则挖掘算法过程中必要的改进;第二,改进的算法——IEFP-Growth在处理庞大的事务型数据集时,通过引入信息熵加权模型用以量化信息的不确定性,确实能够有效挖掘数据集中的关联关系;第三,改进关联算法相比于经典关联算法,挖掘到的关联规则既有相同也有不同的结果,在挖掘关联关系时能够发现一些潜在的或有价值的关联规则,具有一定的适用条件。在实际应用中若将两者结合使用,可以使得挖掘到的关联关系更加丰富完整。
其他文献
提出了一套基于图像内容的颅脑病变计算机自动分析新方法。首先将图像分割为固定的感兴趣区域,采用统计量作为描述参数,然后用特征值通过决策树分类分析,提取出隐藏在其中的判
<正>【设计思路】"图形的放大与缩小"是义务教育课程标准实验教科书《数学》(苏教版)六年级下册第38 ̄39页的内容。其教学重点是理解图形的放大与缩小,并能按指定的比把一个简
<正>北纬30°是世界上最奇特的地带之一,它贯穿四大文明古国,横越世界最高峰和海底最深处,既有许多至今难解的谜团,也存在着许多奇妙的自然景观。位于四川省东部的大竹,就是
<正>【教学内容】义务教育课程标准实验教科书《数学》(人教版)三年级上册。【教学目标】1.让学生初步认识平行四边形,了解平行四边形具有不稳定的特性。2.通过拉一拉、量一
<正> 关税与贸易总协定(下简称总协定)是在美国倡议与推动下,于1947年10月30日在日内瓦签订的一项多边贸易协定。在其主持下,已进行过七轮谈判。通过各种协定,总协定对世界贸
<正>一、农村小学计算机网络建设的状况(一)硬件建设目前,小学网络建设可以说是一片空白,充其量也只有几台电脑而已。主要应用于处理一些文字类的材料,偶尔供教师制作上公开
<正>【教学内容】义务教育课程标准实验教科书《语文》﹙人教版﹚四年级下册。【教学过程】一、启读——感知美1.猜字:天上一条虫。打一字。(出示"蚕"字,读准字音)
文化企业集团要做大做强,必须走跨地区、跨行业、跨媒体经营之路,目前河南的几个集团在这方面已经迈出了可喜的第一步,但同时,与发达国家和发达地区相比还有很大差距,存在着
<正> 广东省东莞市地处珠江三角洲,1985年经国务院批准撤县设市(1987年以前为县级市),并被列入珠江三角洲经济开放区。几年来该市坚持改革、开放、搞活的方针,以国际市场为导
目的:本研究运用健脾止泻汤配合穴位贴敷治疗腹泻型肠易激综合征,且中医诊断为泄泻脾虚湿阻证的患者,观察患者治疗前后症状的变化情况,以综合评价健脾止泻汤配合穴位贴敷治疗