论文部分内容阅读
信息技术的革新带着人们进入了信息时代,但“信息过载”问题制约了人们获取信息的效率,个性化推荐系统有效缓解了“信息过载”问题。协同过滤算法是目前应用最广泛的推荐算法,但单一的协同过滤推荐算法存在着数据稀疏、可扩展性、冷启动、可解释性等制约着推荐效果的因素。为了优化推荐算法,越来越多的辅助信息和混合模型引入推荐系统。内容信息有助于联系用户和物品,满足用户更为个性化的需求,混合模型有助于提高推荐系统性能。加权Slope One算法作为一种使用线性回归模型来预测评分的基于邻域的协同过滤算法其最大优势是易于实现,原理简单,且预测的准确度较高。但该算法未能考虑考虑用户之间、物品之间以及用户和物品之间的内在联系,进而影响推荐质量。针对以上问题,本文在Slope One算法基础上,分别从矩阵分解思想和辅助内容信息的角度的提出相应的改进算法,以期提高推荐系统的性能。本文主要介绍了3个方面内容:基于非负矩阵分解的Slope One算法、基于物品相似性的Slope One算法、基于标签基因组的Slope One算法。主要研究内容如下:(1)在非负矩阵分解(NMF)算法中,基于流形学习的图正则化非负矩阵分解方法(GNMF)对于提高聚类性能有着较好的效果,投影非负矩阵分解可以保证稀疏表达。在投影非负矩阵分解算法和图正则化非负矩阵分解算法的基础上,本文提出一种基于近邻保留投影非负矩阵分解的协同过滤算法。我们对投影非负矩阵算法施加图正则化约束,在改善评分矩阵稀疏性的同时,保留原高维空间中数据点之间的近邻关系,使得矩阵分解后能够选取更准确的近邻集合。在MovieLens数据集上的实验结果表明本文提出的算法提高了原有Slope One算法的推荐效率,还提高了扩展性。(2)针对协同过滤算法在选择用户邻居时容易引入兴趣偏好不一致用户的问题,本文提出一种改进的用户近邻选择方法,在计算用户相似度时将物品评分相似度权重。针对已有物品特征信息不足的问题,我们改进了物品相似度的计算方法,利用更多的物品属性特征作为辅助信息来计算物品属性相似度,在尽可能全面的利用物品细节信息的同时,减少计算的复杂性。在MovieLens数据集上的实验表明该算法提升了推荐效果,并有助于缓解冷启动问题和提高可解释性。(3)标签是一种联系用户和物品的重要中介,与传统的标签系统不同,本文引入了一种扩展的标签模型以提供增强形式的用户交互的数据结构:标签基因组。标签基因组描述了物品和标签之间关联的程度,以数值的形式反映了物品之间的内容相似性。为了提高推荐系统的准确性,本文提出了一种结合标签信息和物品属性的混合算法。该算法将标签与电影的相关性定义为标签相似度,然后将标签预测评分融入物品评分中。在不同类型的MovieLens数据集上的实验表明,该算法在得到推荐准确度的同时进一步缓解冷启动问题并提高了可解释性。