论文部分内容阅读
随着网络和电子商务的快速发展,信息的爆炸性增长在给人们带来便利的同时,也给人们带来了如何在大量信息中选择所需求资源的困惑。而推荐系统就是一个帮助用户解决信息过载问题的一种智能代理系统。无论是在研究领域还是应用领域,协同过滤算法都是个性化推荐系统中最成功的算法之一。它基于的假设是:在过去兴趣相似的用户也倾向于在未来喜欢相同的东西。协同过滤算法的最大优势在于它并不基于任何内容信息,因此可以处理音乐、电影和照片等无结构的项目。但与此同时,协同过滤算法也存在着问题亟待解决,那就是稀疏性问题。为了缓解稀疏性问题,本文中提出了一个改进的协同过滤算法,名为基于类别的混合协同过滤算法。该算法在四个主要方面提高了推荐系统的准确性:首先,本文算法利用项目的类别信息,将项目按照其类别信息分类,形成项目-类别矩阵,并根据用户-项目矩阵和项目-类别矩阵构建了用户-类别矩阵。这个过程将一个高维度的矩阵转化为了一个低维度的矩阵。其次,本算法改进了用户相似度和项目相似度公式,通过在原有相似度计算公式中加入一个基于打分交集计算的相关权重的方法,解决了当用户(或项目)打分交集较少时相似性计算不准确的问题。再次,本文提出了一个新的缺失数据预测策略,也就是在我们改进了的基于用户的协同过滤算法运算过程中,先使用改进了的基于项目的协同过滤算法对空白评分进行预测的方法。最后,我们为每个用户构造了用户最近感兴趣的类别云,将用户倾向可能随着时间发生改变的因素考虑在内,进一步提高了算法的准确性。在实验中,我们使用MovieLens10M的一个扩展数据集作为数据源,使用平均绝对误差(MAE)和均方根误差(RMSE)作为评测指标,使用交叉验证的方式设定了参数值。通过使不同训练集所占整体数据集的比例不同,我们比较了本文所提出的算法与传统的基于用户的协同过滤算法和基于项目的协同过滤算法的精确性差距。实验表明,我们提出的算法在所有的情况下都比其他两种算法在性能上有了明显的提升,MAE的最大的提升比率为22%, RMSE最大的提升比率为28%.不仅如此,在提升率曲线上可以看出,训练集的数据越是稀疏,我们算法的优势便越发明显。因此我们可以相信,我们的算法的确有效的缓解了稀疏性问题,提高了协同过滤算法的精确度。