论文部分内容阅读
随着互联网技术的高速发展,数据信息呈现出爆炸式增长,互联网将人类带入了大数据时代。用户要在海量数据中挑选出自己真正需要的信息好比大海捞针,如何在众多信息中迅速挖掘用户感兴趣的关键信息并推送给用户,成为当下学界和业界共同关注的热点问题。近年来,推荐系统作为一种智能的个性化信息服务技术在国内外得到迅速崛起,并在电子商务、视频娱乐、社交网络等多个领域得到广泛应用。经过多年的发展,推荐系统已经衍生出基于内容的推荐、基于数据挖掘的推荐、协同过滤推荐等多种推荐技术。其中,协同过滤推荐技术是应用最为广泛的推荐技术。但是,协同过滤推荐算法存在着数据稀疏、推荐精度低等问题,特别在大数据背景下,协同过滤推荐算法的数据稀疏问题、推荐精度问题被进一步放大,使之成为推荐系统的发展和应用的瓶颈。基于此,本文完成了如下工作:第一,针对协同过滤推荐系统中的数据稀疏性问题,提出了基于专家用户和项目信任度的数据填充方法。该方法根据专家信任度值,选择评分数量多、评分质量好的用户作为专家用户。同时,该方法综合考虑项目评分数和标准差作为项目信任度的评估值,使信任度高的项目作为可行项目,并采用专家用户的评分对高信任度项目的缺失项进行填充,从而在保证填充质量的前提下有效降低数据的稀疏度,并通过实验验证该算法的有效性。第二,结合K-Means算法和基于项目的协同过滤推荐算法,提出了基于聚类和非对称权重混合相似度的协同过滤推荐算法(CFCA)。该算法首先完成了基于评分稳定项目的K-Means聚类,然后在类中采用非对称权重混合相似度进行相似度计算,并据此给出推荐结果。该算法综合考虑项目之间共同用户评分的交叠状况和项目的评分数,提高了相似度计算的准确性,进而提高推荐质量。针对本文提出的算法,论文完成了在不同条件下CFCA算法与传统协同过滤推荐算法的实验对比。实验结果表明,本文提出的算法,能够有效的提高算法的推荐精度。第三,为提高算法效率、降低算法运算时间,本文设计了CFCA算法MapReduce并行编程模型,并完成了该模型下数据预处理、基于评分稳定项目的K-Means聚类、基于非对称权重混合相似度计算和预测评分阶段的并行化处理。通过并行运算解决了算法处理的效率问题。