论文部分内容阅读
随着信息产业的发展,人们获取数据和知识的手段已趋向于多样化。人类拥有的数据量越来越庞大,在这些数据量的背后可能隐藏着大量我们感兴趣的信息,如何有效的挖掘这些信息成为一个亟待解决的难题。而数据挖掘技术使人类摆脱了这一难题,它融合了数据库、数理统计、机器学习、模式识别和人工智能等各种学科,可以从大量的、无规律的、有噪音的数据库中提取事先未知的信息和知识,被广泛的应用于各个领域,而关联规则挖掘技术是其中最活跃、研究最为广泛的课题之一。自R. Agrawal等人在1994年提出基于Apriori的关联规则挖掘算法之后,诸多学者开始对关联规则挖掘问题进行了大量的研究,并提出了许多改进算法。本文对关联规则问题进行了详细的分析和阐述,并详细的研究了其中一个经典算法FP-growth算法。FP-growth算法的应用范围最广,它把事务数据库压缩.到一个FP-树进行处理,相对Apriori算法来说,最大的优点是不需要产生候选频繁项集且只需要两次扫描数据库。但是它仍然存在一些问题,比如需要产生大量的条件FP-树、不能有效的挖掘大型数据库等。本文针对的FP-growth算法的缺点做了如下改进:通过对事务数据库的约简,减小了第二次扫描数据库时的数据量;对项头目表的存储结构做了改进,添加了一个基于哈希表的辅助表,可以提高对项头目表查找的时间复杂度;构造逆向的FP-树并修改逆向FP-树的结构,可以节省逆向FP-树所占的存储空间。并给出实验结果和性能分析,证明改进算法的正确性和高效性。最后针对现有的FP-growth算法不能有效的挖掘大型数据库的问题,本文结合了数据库压缩技术(抽样与划分)与本文改进算法的优点,提出了一种改进的快速挖掘模型,它可以快速的挖掘海量数据库并尽可能高的保证结果的精确度,是本文以后将要研究的重点。