论文部分内容阅读
协同过滤算法由于简洁的设计思想和优越的计算性能,一直是推荐算法研究领域中的一个热点。随着研究工作的不断深入,如何缓解协同过滤算法的稀疏性与扩展性问题,正逐渐成为人们关注的焦点。有鉴于此,本文首先总结了近年来协同过滤算法的相关研究成果,特别对基于内存和基于模型两种分类情况的研究内容进行了分析;其次,在重点分析协同过滤算法稀疏性问题的基础上,对其中影响算法性能的一些关键环节进行了不同程度的改进,进而给出了一种基于相关系数的协同过滤算法模型;最后,通过仿真实验,对改进后的计算模型进行了测试与分析,进一步阐释了计算模型在处理相关问题的可行性与有效性。 论文通过对一些主要协同过滤算法模型的分析,凝练出当前经典协同过滤算法的一般性架构,并以此为算法设计的基本框架。再通过将语义相似度和权重近似度两种计算过程的有机结合,构造出一种基于相关系数的、计算效率相对较高、新型的协同过滤算法。具体而言,算法借助社会化标签的概念,将项目间语义相似度计算引入到协同过滤算法中,使得语义相似度计算参与到未知项评分的计算过程中,从而降低了协同过滤算法对评分矩阵的依赖性,最终达到缓解稀疏性问题的目的。另一方面,为了确保算法具有良好的容错性和较高的推荐个性化程度,算法在设计方面充分利用了用户评分信息来计算项目间权重的近似度。其中,语义相似度是项目间本质属性关联程度的数值化表示;权重近似度是项目间基于用户评分的相似程度的数值化表示。在此前提下,项目相关系数模型可看成是上述两种计算过程相结合的产物,即当该模型执行结束后,未知项评分也随之计算得出,进而可使用Top-N算法为任意用户计算推荐列表。 在模型的应用研究方面,本文着重探讨了基于相关系数的协同过滤推荐系统的一种具体实现方式,并对其应用系统的组织结构进行了分析。性能分析采用了两类评价标准,即平均绝对误差法(MAE)和命中率(HR);分析内容主要涉及三个方面,即(1)验证调节参数α的最优值,(2)与经典协同过滤算法的性能进行比较,(3)评分稀疏程度变化对算法性能的影响。通过仿真实验,进一步验证了算法的性能与经典协同过滤算法相比具有一定的优势。