论文部分内容阅读
【摘 要】针对目前几乎所有算法都无法在一个包含频繁模式的大数据库中挖掘到极大频繁模式的问题,本文提出一种基于模式图的频繁模式挖掘算法GFPMA(Graph-Based Frequent Pattern Mining Algorithm),算法采用一种自上而下的挖掘方式,将交易数据库转换成模式图,通过两个优化阶段:剪枝冗余团和扩展候选模式,挖掘模式图中的极大团,进而得到Top-N极大频繁模式。
【关键词】频繁模式挖掘 模式图
一、前言
频繁模式挖掘是数据挖掘研究中的一个基本问题。在文献[1]中,首次提出一种模式为巨模式(Colossal Pattern),挖掘指定数量(如,K)的频繁巨模式,并提出了一种基于模式融合方法的算法。文献[2]中提出的算法,旨在寻找Top-K最大频繁模式,文中提出一种极大团算法,该算法以自上而下的方式进行检测。
在本文中,提出一种新的自上而下的挖掘方法,将交易数据库转换成模式图,通过两个优化阶段:剪枝冗余团和扩展候选模式,挖掘模式图中的极大团,进而得到Top-N极大频繁模式。
二、基本概念
(一)基本概念
(四)结论
本文中,提出基于模式图的频繁模式挖掘算法是一种新的自上而下的挖掘模式,旨在大数据集中挖掘出极大频繁模式。通过将数据集划分为模式图,找出模式图的最大子图,通过无效团的剪枝和扩展候选模式,Top-N极大频繁模式。
参考文献:
[1]神鹏飞,王希武,耿志广,姜樟,王创伟.数据挖掘的方法分类研究[J].价值工程.2012:146-147.
[2]肖海林,李兴明.层次分析法在通信告警加权关联规则挖掘中的应用研究[J].电信科学.2006(11): 36-39.
作者简介:陈一心,广西银行学校,助理讲师。
【关键词】频繁模式挖掘 模式图
一、前言
频繁模式挖掘是数据挖掘研究中的一个基本问题。在文献[1]中,首次提出一种模式为巨模式(Colossal Pattern),挖掘指定数量(如,K)的频繁巨模式,并提出了一种基于模式融合方法的算法。文献[2]中提出的算法,旨在寻找Top-K最大频繁模式,文中提出一种极大团算法,该算法以自上而下的方式进行检测。
在本文中,提出一种新的自上而下的挖掘方法,将交易数据库转换成模式图,通过两个优化阶段:剪枝冗余团和扩展候选模式,挖掘模式图中的极大团,进而得到Top-N极大频繁模式。
二、基本概念
(一)基本概念
(四)结论
本文中,提出基于模式图的频繁模式挖掘算法是一种新的自上而下的挖掘模式,旨在大数据集中挖掘出极大频繁模式。通过将数据集划分为模式图,找出模式图的最大子图,通过无效团的剪枝和扩展候选模式,Top-N极大频繁模式。
参考文献:
[1]神鹏飞,王希武,耿志广,姜樟,王创伟.数据挖掘的方法分类研究[J].价值工程.2012:146-147.
[2]肖海林,李兴明.层次分析法在通信告警加权关联规则挖掘中的应用研究[J].电信科学.2006(11): 36-39.
作者简介:陈一心,广西银行学校,助理讲师。