论文部分内容阅读
因特网技术的快速发展,推荐系统由于能够帮助用户快速做出适当决定,被广泛应用于各大电子商务网站,推荐服务的使用能促进用户由浏览者到购买者之间的转换,给生产商带来商机的同时让用户信息生活更加智能高效。协作过滤(CF)是作为推荐领域的主要技术,能够行之有效地解决信息超载问题。协同过滤根据用户更易采纳与其志同道合的朋友给出的推荐这一思想,采用最近邻技术研究用户兴趣特征,通过预测用户兴趣进行个性化推荐。在用户-项目矩阵中,评分数据量与用户项目数比较相当稀疏,导致推荐采纳率下降,用户使用体验不理想。此外,协同过滤还存在冷启动,扩展性差和未考虑用户兴趣动态变化等问题,导致推荐结果的准确率低。因此,我们还需要针对上述问题进行进一步研究。本文具体的工作如下:(1)基于邻域的协同过滤算法在进行相似性度量时只利用用户间共同评分,而数据集中用户有效数据短缺和项目规模庞大,导致用户-项目矩阵稀疏性严重,相似性度量与实际存在偏差,推荐效果并不理想。因此,本文提出一种基于巴氏系数和Jaccard系数的协同过滤算法。在项目相似性度量中,该算法引入巴氏系数和Jaccard系数,巴氏系数能够利用用户所有评分信息能够克服共同评分的限制,提高用户有效信息的利用率;Jaccard系数可以增加相似性度量中共同评分项所占的比重,调整巴氏系数使用全局用户数据信息而忽略了共同评分项对相似性度量的重要性;最后同时利用两个系数提高相似性度量准确率。通过实验验证,该算法通过提高项目相似度准确率来选取最近邻,优化了对目标用户的偏好预测和个性化推荐。(2)基于用户的协同过滤在进行推荐时,侧重于如何高效利用历史评分数据来计算似度,忽略了评分数据的时效性问题。本文考虑时间因素对推荐的影响,针对某个时刻用户喜好突然发生变化导致用户历史数据失真,用户进行聚类的时刻存在随机性和评分预测与实际数据差距大的问题,提出用户兴趣偏移和聚类的推荐算法。首先,引入项目关联相似度和项目关联图,项目关联相似度考虑项目隐形属性提高相似度准确率,项目关联图将项目聚合分类,缩短推荐列表生成的时间;然后根据关联图建立兴趣模型对用户兴趣类别进行分类,利用序列隔断算法辨别用户兴趣随时间的变化,对某时刻兴趣发生偏移的用户仅保留这个时刻后的历史数据用于算法运算;最后利用近邻集进行预测推荐。实验分别从聚类和推荐两方面进行,经验证该算法能够提高聚类和推荐的准确率。