论文部分内容阅读
推荐算法在大数据时代,一直是一个热点问题。流行的算法使用基于模型的协同过滤模型作为基础,在其矩阵分解的框架上进行进一步优化。一些模型会使用物品的内容数据来优化物品特征矩阵,来对推荐进行优化。但这类模型在训练时过于偏向物品的内容数据,而物品之间的评分矩阵相似性却没有加入考虑,而这种相似性却是基于物品的协同过滤算法的核心。这类缺陷限制了算法的推荐效果。本文则对传统的基于物品的协同过滤算法,和基于模型的协同过滤算法的模型和思想进行了深入研究,在现有的算法基础上,通过引入相似度保持的概念,提出了基于物品相似度和主题回归的矩阵分解推荐算法CTR-SIM。该模型在训练阶段对物品-评分矩阵进行矩阵分解,在此基础上,加入物品内容的主题回归,来约束物品的隐式特征向量,再使用物品之间的评分相似度来对物品的隐式特征向量进行进一步约束,从而在物品隐式特征矩阵上还原它们之间的相似程度的效果,同时,这种相似性还会在相似的物品之间进行传播,从而对相似的物品进行整体上的优化。本文在公开的lastfm和Epinions数据集上进行实验分析,结果表明,在稀疏性很强的lastfm数据集和Epimons数据集上,本文提出的CTR-SIM算法的召回率相较于以往的仅使用物品特征的基于模型的协同过滤算法有了明显的提升。