【摘 要】
:
随着互联网的高速发展,数据信息呈现出爆炸性的增长趋势,很多企业每天产生的数据量已经达到TB级甚至PB级。面对如此巨大的数据集,数据挖掘的过程会受到算法实现复杂,运行平台
论文部分内容阅读
随着互联网的高速发展,数据信息呈现出爆炸性的增长趋势,很多企业每天产生的数据量已经达到TB级甚至PB级。面对如此巨大的数据集,数据挖掘的过程会受到算法实现复杂,运行平台计算能力有限等问题的制约,无法达到预期效果。关联规则是数据挖掘技术中的重要分支,具有广泛的应用领域。Hadoop开源平台的兴起与发展,为数据挖掘算法提供了新的思路。Hadoop因其良好的容错性和可扩展性,能够在一定程度上解决关联规则算法运行时的两个主要瓶颈:计算量大和I/O负担过重问题。本文重点研究关联规则中经典的基于水平数据集的Apriori算法和基于垂直数据集的EClat算法,给出了其基于Hadoop平台的改进实现。其中针对Apriori算法需要迭代运算,多次扫描数据库,不适应Hadoop平台的特点,提出了缩减数据集,确定最高阶次Km,基于2-频繁项集进行剪枝一次生成3-Km项集的优化策略。对于Eclat算法,提出两种Hadoop平台下并行化算法:D-MREclat算法和A-MREclat算法。前者通过对垂直数据集进行范围划分进行数据分块,能够减少后继计算中“交”运算操作的次数,从而提高算法的运行效率。后者引入Apriori思想,采用基于前缀的搜索空间划分方法,实现Eclat算法的并行化,这种方法在处理大规模数据集时运行效率更好。针对Eclat算法运行中产生大量候选项集导致内存占用严重等问题,本文提出一种压缩数据的存储方式,对运行结果进行压缩表示,有效减少了网络通信量,达到提高算法运行效率的目的。对上述3种关联规则改进算法完成并行化实现后,基于Hadoop集群,利用不同类型、大小的数据集对算法性能进行测试。实验表明,改进后的优化算法表现出较好的性能。
其他文献
云模型是李德毅院士提出的云理论的一个核心组成部分。它是在对概率理论和模糊集合理论进行交叉渗透的基础上,通过特定的构造算子,形成定性概念与其定量表示之间的转换模型。
近几年来,随着软件产业的迅速发展,软件发展的规模越来越大,软件购买、交付及运营的费用越来越高,同时企业信息化建设需求不断增强,逐渐需要采用一种更好的软件交付模式来减
I/O调度算法对磁盘性能有着至关重要的影响。传统的磁盘调度算法主要通过优化寻道时间来提高磁盘的I/O带宽利用率,但没有考虑到单个请求的响应时间,不能满足实时性要求,也无法感
自1999年各个高校开始进行高校招生扩招以来,现有的大学校区已经不能满足日益增长的学生的数量。于是,许多学校开始扩充自己的校区,将校区的规模扩大了,许多大学选择了在郊外建立
随着当前信息技术的发展以及Internet的普及,人们对诸如自动文摘这样的文本处理需求与日俱增。中文自动文摘研究起步较晚,加上中文自身的特点导致中文自动文摘技术成熟还尚需
随着互联网的快速发展,人们获取信息的渠道越来越多,信息爆炸问题也越来越严重。在科研领域中学术论文不但数量巨大而且领域众多,科研工作者需要花费越来越多的精力从众多的
本文主要讨论基于投影时序逻辑PTL(Projection Temporal Logic)的MSVL(Modeling, Simulation and Verification Language)建模、仿真与验证软件的实现原理,扩展及应用,MSVL是
随着互联网技术的不断发展,网络安全问题逐渐突出,传统网络防御措施已经无法适应当今不断变化的网络环境,如何为用户营造一个安全的网络环境,已经成为当下研究的热点。入侵检
日常工作管理对于钢厂来说至关重要,而保证日常工作管理顺利进行的最有效手段就是引入信息化管理。随着钢厂生产的进行与日常工作管理的经验积累,数据量越来越大,数据查询与
随着知识经济的兴起和网络时代的来临,各个领域的信息系统层出不穷。然而,信息系统之间往往由于结构异构、语法异构、系统异构、语义异构等原因不能有效地通信,产生了许多“