论文部分内容阅读
随着大数据时代的快速发展,传统的机器学习算法面临数据量的挑战,巨大规模的数据计算仅仅依靠摩尔定律是不够的,而云计算的发展和分布式平台的开发,使得将全部数据投入进行分析计算变成可能。作为互联网时代的典型成功案例,社交媒体成为大数据的重要数据来源,而这些社交媒体数据中蕴含着许多有价值的信息。本文基于Spark并行框架设计并实现了并行聚类算法,并将并行聚类算法应用在了微博数据的分析系统上,实现了微博数据的聚类推荐,本文主要内容如下:首先,简要的介绍了聚类算法和本文实现算法密切相关的聚类算法,介绍了分布式计算框架的原理并着重介绍了 Spark。其次介绍了三种聚类算法原理,阐述了其并行化算法的设计与改进:分布式的CLARA算法,分布式DisAP算法,分布式的p-CLOPE算法。对实现的分布式聚类算法进行了相关的有效性、并行化加速比的对比实验。实验结果表明,算法保证了有效性的同时在Spark环境下对大数据处理也能取得良好的加速效果。然后在这三种聚类算法的基础上,搭建了微博数据聚类分析原型系统,介绍了原型系统的系统架构、设计实现。对微博数据处理的过程包括数据获取、数据预处理、特征提取和聚类过程进行了阐述。之后应用系统,进行微博的聚类分析并对话题的聚类结果进行了分析。最后介绍了 BDAP大数据挖掘平台组件包括平台结构、组件集成机制。对聚类算法的集成做了详细介绍,包括各个模块的集成方式、模块设计与实现,并最终规范化的集成到系统中。