【摘 要】
:
针对大数据环境下的关联挖掘问题,采取两次扫描数据库,将事务添加到相互独立的数据分区的方式,对传统FP-Growth算法进行分布式改造,进而提出了基于Hadoop框架的分布式FP-Grow
【机 构】
:
郑州轻工业学院计算机与通信工程学院
【基金项目】
:
国家自然科学基金项目(61501405),河南省科技计划项目(152102210149,152102210357),郑州轻工业学院校级青年骨干教师培养对象资助计划项目(XGGJS02),郑州轻工业学院研究生科技创新基金资助项目
论文部分内容阅读
针对大数据环境下的关联挖掘问题,采取两次扫描数据库,将事务添加到相互独立的数据分区的方式,对传统FP-Growth算法进行分布式改造,进而提出了基于Hadoop框架的分布式FP-Growth算法以实现海量数据的频繁模式FP挖掘.仿真结果表明,在数据处理量逐渐增大的过程中,该算法相比较传统算法其运行时间和内存消耗的优势愈加明显,当数据处理量达到70万条时,该算法比传统算法节省约2/3的运行时间,而内存消耗仅为传统算法的1/5.说明该算法在处理海量数据时,能够显著提高FP的挖掘效率并降低内存的消耗量.
其他文献
使用非扩张半群隐式和显式黏滞迭代算法,在Hilbert空间中建立了非扩张半群的公共不动点集与具有强单调映象的变分不等式解集的公共元素的强收敛定理,从而推广和改进了相关文
针对实际生产中主管与支管间存在一定偏置和倾斜、不适于专用机器人进行相贯线焊缝焊接的问题,通过改善相贯线数学模型,采用D-H参数构建6-DOF机器人与变位机模型,给出一种工
针对液压支架顶梁在满足工况要求的前提下质量需要达到最小的工程目标,提出了神经网络近似模型和遗传算法相结合的顶梁轻量化设计方法:首先运用ANSYS建立顶梁参数化模型,以顶
利用烘箱模拟白肋烟烘焙过程,以温度和时间为变量,采用响应面设计法研究了不同烘焙条件对白肋烟还原糖、总糖、烟碱和总氮等常规化学成分和碱性香味成分含量的影响,结果表明:1
以藜麦麸为原料,采用酶-热水浸提法对藜麦麸水溶性非淀粉多糖(NSP)提取工艺进行研究.利用苯酚一硫酸法测定NSP的得率,通过单因素试验和正交试验确定最佳提取3-艺条件:料液比(w/v)为1:16
以6种典型的咪唑类离子液体为绿色溶剂,系统地测定了半纤维素的模拟化合物木聚糖在其中的溶解度.结果表明:氯盐型离子液体对木聚糖的溶解能力较强,在373.2 K时,木聚糖的溶解度
将半制备HKLC分离与GC-MS测定相结合,对某卷烟样品烟气中性香味成分进行分析:先将半制备HPLC分离条件中的馏分收集时间优化为3个时间段,以保证待测化合物在各馏分中不存在交叉