论文部分内容阅读
随着计算机的普及和网络技术的发展,互联网信息服务已经逐渐渗透到人们生活的方方面面,正在从根本上改变人们传统的生活方式。特别是近年来,智能手机、平板电脑等移动设备的广泛使用以及微信、微博等移动应用的兴起,突破了传统PC端互联网访问的时间、空间等限制,使得人们现在可以更加方便、自由、快捷地通过互联网获取和分享信息。然而,伴随着互联网信息服务的蓬勃发展,其信息资源规模也发生了爆发式增长。此时,人们从互联网中找到自己想要的信息变的愈发困难,引起了所谓的信息过载问题。在此背景下,推荐系统被提出并且成为解决该问题最有效的技术之一。目前,协同过滤是推荐系统中应用最广泛、最成功的技术。它仅需少量“用户-物品”之间的历史评分数据就可以快速构建一个可用的系统来预测用户的潜在信息需求,具有简单、易用、精度高等优点。然而,随着数据规模越来越庞大、数据类型越来越丰富、应用环境越来越复杂,传统协同过滤算法正面临更加严峻的数据稀疏性、冷启动、可扩展性、可解释性等问题。最近,一些研究工作尝试把上下文信息融合到协同过滤算法,取得了一定的性能提升。从这些初步尝试可以看出,上下文信息与用户兴趣有紧密联系,它们的引入有助于提高预测精度和用户满意度,因此融合上下文信息对于改进协同过滤算法具有重要意义。鉴于此,本文对协同过滤算法进行了系统分析,对上下文信息进行了更加深入的探讨,进而针对不同上下文的历史评分数据,设计了多种混合协同过滤算法能够更高效地利用上下文信息解决当前推荐系统面临的问题。本文主要工作和创新如下:1.融合物品分类结构和内容信息的协同过滤算法研究。目前,大部分关于可扩展性和冷启动问题的研究主要针对用户进行展开,而很少关注系统中动态更新的物品,尤其对大规模物品缺乏可扩展性,对新物品也不能取得令人满意的推荐结果。本研究发现,在有明确物品分类的前提下,同种物品之间一定会存在一些相同的内容属性或者其他一些潜在特征,因此用户对同种物品应该具有相似兴趣。基于此发现,本研究从物品关系以及物品特征入手,利用物品分类信息、物品内容信息(关键字)等上下文提出一种逐步优化用户兴趣的分层协同过滤算法。分析显示该算法对大规模物品有可扩展性,还能解决新物品的冷启动问题,并且真实数据集上的实验结果表明该算法在不同比例稀疏数据情况下可以取得较高的预测精度,而且针对新物品具有较好的冷启动预测能力。2.融合用户-物品内容上下文关联信息的协同过滤算法研究。在之前的算法中,虽然物品分类信息有助于利用物品相似性优化用户兴趣,但是分类需要事先构建,这种较高的数据要求限制了该算法的适用范围,另外该算法不能对用户进行扩展,也不能解决新用户的冷启动问题。为了设计更通用可扩展的算法,本研究转而关注内容上下文,也就是用户内容信息(标签)和物品内容信息(关键字)。用户-物品之间的历史评分数据为它们的内容上下文建立了关联关系。基于此发现,本研究从内容上下文入手,将协同过滤与基于内容的推荐算法相结合,提出一种根据内容相似性产生预测结果的间接协同过滤算法。分析显示该算法具有较强的可解释性和可扩展性,并且真实数据集上的实验结果表明该算法在不同比例稀疏数据情况下可以取得较高的预测精度,而且针对新用户和新物品都具有较好的冷启动预测能力。3.融合子群组间潜在共享信息的协同过滤算法研究。除了直接将上下文信息与推荐算法进行耦合外,最近出现了一类基于子群组的改进算法,主要思想是根据上下文信息,将整个数据集划分到不同子群组,然后在这些子群组上分别运行协同过滤算法产生各自的预测结果。但是不均衡稀疏数据会造成子群组上协同过滤结果不稳定的问题。对这些子群组分析后,可以发现它们所包含的用户和物品之间存在隐含联系。基于此发现,本研究从子群组间潜在共享信息入手,提出一种基于知识迁移的跨群组协同过滤算法,它利用少数性能较好子群组上的协同过滤结果构建评分矩阵的多个近似,然后加权聚合这些近似产生预测结果。分析显示该算法减少了一些性能较差子群组上的不必要计算,而且真实数据集上的实验结果表明该算法提高了预测精度,尤其是在非常稀疏数据上其性能提升尤为明显,说明该算法缓解了数据稀疏性问题。