论文部分内容阅读
随着互联网的普及与信息技术的快速发展,网络上的信息数据呈指数快速增长,面对复杂多样的海量数据,用户难以从中快速提取有强烈需求的数据。目前,越来越多的网络用户通过电商平台、论坛的商品评论信息来了解商品的优缺点。而服务商也可以通过分析商品的评价数据更好的挖掘用户的需求,进而提升用户对商品的满意程度。在海量的图书评论数据中,如何基于图书的评分、评论信息给用户推荐感兴趣的图书是本文的研究重点。本文以豆瓣网的上亿条图书评论作为真实的数据来源,在Spark分布式计算框架下,研究并实现了针对海量数据的分布式混合推荐算法。首先,本文利用朴素贝叶斯分类算法对有缺陷的数据集合进行情感分析,经过中文文本情感分析计算出评分值,将修补后的结果填充到训练数据集中。其次,在Spark分布式计算框架下,将基于矩阵分解的ALS协同过滤算法以并行化方式实现。以此为基础,研究并改进了一种基于用户图书偏好特征相似度的算法,此算法根据本文数据集的多样性,计算出用户之间的相似度,通过找到与某用户最相似的用户,可以在推荐时将相似用户的偏好特征与初步推荐结果进行加权整合,使得推荐结果更加准确。最后,将基于ALS的协同过滤推荐算法与基于用户图书偏好特征相似度算法的结合,基于ALS的协同过滤推荐算法可以根据用户对图书的评分来构建出推荐矩阵并生成推荐模型,基于用户图书偏好特征相似度算法计算出与当前用户相似度最高的用户及其图书偏好,通过对图书偏好计算结果与协同过滤推荐结果进行加权整合,得到更加精准的推荐结果。实验表明,本文设计并实现的基于Spark的分布式混合推荐算法在海量数据中,不仅能够提高推荐模型构建的效率,还能够提升推荐的准确度,同时也具有相对较好的可扩展性。