【摘 要】
:
大数据时代最典型的特征是“数据爆炸,信息匮乏”,因此对数据的分析挖掘提出了更高的要求。数据挖掘旨在把隐藏在海量且杂乱数据背后的知识和信息提取出来,并归纳出隐含在其中的内在规律,为后续决策做出科学性地指导。频繁模式挖掘作为数据挖掘过程中最基本和最关键的步骤,一直以来都是最热门的研究领域之一,许多学者都对其进行了深入研究,但仍有许多问题亟待解决与完善。本文在单支持度和多支持度频繁模式挖掘算法的基础上,
论文部分内容阅读
大数据时代最典型的特征是“数据爆炸,信息匮乏”,因此对数据的分析挖掘提出了更高的要求。数据挖掘旨在把隐藏在海量且杂乱数据背后的知识和信息提取出来,并归纳出隐含在其中的内在规律,为后续决策做出科学性地指导。频繁模式挖掘作为数据挖掘过程中最基本和最关键的步骤,一直以来都是最热门的研究领域之一,许多学者都对其进行了深入研究,但仍有许多问题亟待解决与完善。本文在单支持度和多支持度频繁模式挖掘算法的基础上,对频繁模式挖掘算法进行了相应改进。具体研究内容和研究成果如下:(1)提出了一种基于改进紧凑模式树的Apriori频繁模式挖掘算法ICP-tree。首先,在Apriori算法的连接步前加入连接预处理操作,控制参与自连接的频繁项集的数量,约减生成的候选项集的数量;其次,将紧凑模式树(CP-tree)进行扩展,构造了一个新的树结构ECP-tree,新的树结构只需对数据库进行一次遍历,且能有效处理数据流问题;然后,将改进点与APFT算法结合,用于挖掘频繁模式;最后,通过对两种不同类型的数据集进行实验,将ICP-tree算法与Apriori算法、FP-growth算法、APFT算法以及文献60提出的算法进行对比分析。实验结果验证了ICP-tree算法的有效性。(2)提出了一种改进的多最小支持度频繁模式挖掘算法IMISFP-growth。首先,在构造树之前对事务数据库中的项进行预处理,删除那些支持度小于多最小支持度最小值的项,利用余下的频繁项构造多项支持度树;然后,提出了一种基于交叉规则构造多项支持度树的新方法,该方法不再使用某一特定标准排列项生成树,而是在每次输入新事务项集时通过事务求交原理构造树;最后,将IMISFP-growth算法与CFP-growth++算法在五种不同的数据集上进行实验对比。实验结果表明,IMISFP-growth算法在运行时间、内存消耗以及可扩展性方面均优于CFP-gro wth++算法。
其他文献
目的探讨中药人工周期疗法用于肾虚型排卵障碍型不孕症治疗的临床效果。方法采用回顾性方法分析,选取2015年1月—2017年12月的48例肾虚型排卵障碍型不孕症患者的临床资料,随
《神探狄仁杰》系列风靡一时,其成功之处关键在于高超的悬念叙事艺术。创作者主要通过选择独特的叙事视点、倒错时间顺序、巧妙设计故事情节、夸大或隐蔽关键细节这四种策略
通过对政府经济学的含义、研究对象 ,以及政府经济学的核心等问题的分析 ,得出政府经济学的逻辑起点———政府经济职能 ,从而形成一个较为完整的、不可分割的政府经济学的理
<正>著名作家萧伯纳曾说过:"你有一个苹果,我有一个苹果互相交换,各自得到一个苹果;你有一种思想,我有一种思想互相交换,各自得到两种思想。"在生活中,人与人的交往显得尤为
五谷杂粮富含淀粉,这些淀粉单独或添加于其他食品中熟制后在贮存过程中会发生淀粉回生现象,从而影响产品品质。研究在添加五谷杂粮的香肠制品加工中,选用糯米中的籼米为原料,
实现现代国家治理是一项系统工程,包含经济、政治、社会、文化、生态、政党的治理现代化,而执政党治理现代化、政府治理现代化和社会治理现代化是其中的三个重要部分。科学分
选取结冷胶、可得然胶和黄原胶为自变量,利用质构仪测定其对无麸质荞麦面条弹性的影响。先进行单因素试验,再采用Box-Behnken设计的方法进行响应面试验。利用响应面分析方法,
内部控制和ERP在我国企业的发展壮大起到了越来越重要的作用,二者的结合使我国的中小型集团公司面临着新的机遇和挑战。如何通过实施ERP建立和完善与之相适应的内部控制已经
随着现代物流业成为国民经济的重要产业,农产品冷链物流快速发展,日益成为社会的焦点话题。文中根据国家有关冷链物流发展的标准,结合市场实地调研的数据和相关资料,简要阐述
很多学者在对日本作家村上春树的研究中都认为其文学创作中明显带有西方文学痕迹的行文风格和西化的道具视角,其在接受西方文学的影响过程中受到美国作家菲茨杰拉德的影响最为