论文部分内容阅读
随着互联网的飞速发展,数据的爆炸式增长使人类迅速步入到大数据时代,网络是人们获取信息资源的一条重要途径。在网络上可以搜索到的电影资源太过丰富、类型多样且质量参差不齐,用户无法在短时间内准确找到自己比较感兴趣的电影,为了在这种情况下高效找到用户感兴趣的电影,推荐系统就受到了众多研究者的关注,其中推荐算法作为推荐系统的核心部分,推荐算法的质量直接决定了推荐系统的好坏。在所有推荐算法中协同过滤推荐算法的影响力最大,应用也最为广泛,它通过用户对已观看电影的反馈来进行筛选,从而在海量电影数据中找到用户可能感兴趣的电影,但由于它依赖用户的历史行为,且用户电影评分矩阵过于稀疏,所以冷启动与稀疏数据的处理便成为研究者想要解决的主要问题,解决这些问题可以为用户提供更好的电影推荐效果。针对电影推荐系统中存在的冷启动问题,本文结合统计学知识,首先对平均评分、评分人数以及电影类型进行描述分析,总结出热门电影的特征并进行推荐,之后通过对用户单一属性分类研究,形成单一属性的推荐列表。研究后发现单一属性列表的推荐效果并不好,推荐列表与热门电影列表重合度较高,无法形成有针对性的推荐。最后考虑在热门电影推荐列表中融合用户的属性信息,以达到对不提供自身属性的用户也有较好的推荐效果。本文还通过数据可视化分析出用户对电影类型的偏好与其他用户属性均有较高的关联性,而偏好通常不在用户所注重的隐私范围内,所以通过用户提供的偏好信息可以达到更好的推荐效果。在基于协同过滤算法的电影推荐系统方面,针对电影推荐系统中用户评分矩阵数据稀疏的问题,本文采用融合了电影标签的混合算法来对用户进行电影推荐。传统的用户电影评分数据过于稀疏,本文采用用户电影类型评分矩阵来找到与目标用户最接近的k个用户,提取这k个用户与他们所观看过的所有电影,构建新的用户电影评分矩阵,与原矩阵相比大大降低了矩阵的稀疏程度,之后使用矩阵分解方法对融合标签信息筛选后的用户电影评分矩阵进行评分预测,最后根据均方误差(MSE)以及平均绝对误差(MAE)对模型效果进行评测。结果表明本文采用的方法可以在一定程度上处理稀疏矩阵的问题,与传统的基于矩阵分解的协同过滤算法相比,本文所使用的混合算法预测用户电影评分的准确率更高,给用户推荐的效果更好。