论文部分内容阅读
数据挖掘是大数据时代蓬勃发展的新技术,它通过计算机技术对庞大且复杂的数据库进行数据分析,解决传统统计学无法解决的问题。关联分析是数据挖掘研究中的一个重要分支,又被称作关联规则挖掘。它主要面向的数据类型是事务型数据,用于探寻事物间的关联关系。FP-Growth算法作为关联规则挖掘中的经典算法,通过分而治之的策略发现数据集中各项目间的关联关系。但是,由于其视数据集中各项目“平等一致”的缺陷,会导致挖掘过程中一些重要的关联关系遗漏。因此,加权关联规则挖掘应运而生。然而,现有的加权关联规则算法也存在局限性:没有考虑到数据集系统本身的混乱程度或不确定性。本论文将通过研究事务型数据,提出一种改进的加权关联规则挖掘算法,可有效处理高度混乱的事务型数据集,发现更多潜在或有价值的关联关系。本论文主要包括以下四个方面的内容:第一,从传统统计学以及数据挖掘的角度研究事物间的关联问题,并对事务型数据的类型和特点进行了归纳和总结;第二,对关联分析的相关理论进行了研究和探讨,分析了经典关联算法将数据集中各项目视作“平等一致”的问题,并对现有的一些关联分析算法进行了研究;第三,针对现有加权关联算法不能解决数据集系统本身混乱程度,从而导致在挖掘结果中潜在的关联关系遗漏的问题,引入信息熵的相关理论,提出基于FP-Growth的加权关联规则挖掘改进算法——IEFP-Growth;第四,分别采用经典FP-Growth与IEFP-Growth算法挖掘Crime数据集中的关联规则,对关联结果进行分析与对比,发现改进的算法确实能够发现与经典算法不同且有价值的关联规则,并研究了其适用条件;同时,通过挖掘检验数据集——IMDB数据集中的关联规则,验证了算法对不同数据集的适用性。研究结果表明:第一,由于各项目的重要程度不尽相同,因此对项目加权是关联规则挖掘算法过程中必要的改进;第二,改进的算法——IEFP-Growth在处理庞大的事务型数据集时,通过引入信息熵加权模型用以量化信息的不确定性,确实能够有效挖掘数据集中的关联关系;第三,改进关联算法相比于经典关联算法,挖掘到的关联规则既有相同也有不同的结果,在挖掘关联关系时能够发现一些潜在的或有价值的关联规则,具有一定的适用条件。在实际应用中若将两者结合使用,可以使得挖掘到的关联关系更加丰富完整。