论文部分内容阅读
随着互联网的高速发展,电子商务网站每天需要处理的日志信息多达几terabyte。如何廉价并且高效地去除日志中的暂时无用信息、提取日志中有用信息是目前我们面临的一个困难。论文基于Map-Reduce并行处理平台详细介绍了如何处理海量日志信息,经过日志信息预处理、用户聚类等处理过程,最终根据用户的访问商品类目的情况对用户进行了聚类。通过使用hadoop云计算平台有效地避免了传统单机处理大规模web日志数据运行时间过长或者运行不出结果的问题,低廉并且高效实现了大规模原始数据的预处理及聚类。本文以web用户访问商品的日志信息为数据源。它使用了Map-Reduce思想,该思想共分为两个阶段,Map阶段信息提取; reduce阶段进行数据求和。详细介绍了并实现了基于Map-Reduce超大文件数据间的join操作及改进型join操作。然后对上面的处理结果建立向量空间模型,形成了用户访问类目的向量空间模型。在聚类研究过程中,将SOM的自适应思想与模糊聚类思想结合在一起,在Map-Reduce平台上实现。由于传统模糊聚类具有运行时间长、运算复杂等特征,所以当数据量大的时候往往无法得出结果。论文将自适应的思想应用到模糊聚类,能够有效避免无限次循环。基于Map-Reduce平台能够有效解决超大数据量计算的问题。因此该思想能够解决传统模糊聚类存在的问题。