融合上下文信息的混合协同过滤推荐算法研究

来源 :北京交通大学 | 被引量 : 18次 | 上传用户:chuniao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及和网络技术的发展,互联网信息服务已经逐渐渗透到人们生活的方方面面,正在从根本上改变人们传统的生活方式。特别是近年来,智能手机、平板电脑等移动设备的广泛使用以及微信、微博等移动应用的兴起,突破了传统PC端互联网访问的时间、空间等限制,使得人们现在可以更加方便、自由、快捷地通过互联网获取和分享信息。然而,伴随着互联网信息服务的蓬勃发展,其信息资源规模也发生了爆发式增长。此时,人们从互联网中找到自己想要的信息变的愈发困难,引起了所谓的信息过载问题。在此背景下,推荐系统被提出并且成为解决该问题最有效的技术之一。目前,协同过滤是推荐系统中应用最广泛、最成功的技术。它仅需少量“用户-物品”之间的历史评分数据就可以快速构建一个可用的系统来预测用户的潜在信息需求,具有简单、易用、精度高等优点。然而,随着数据规模越来越庞大、数据类型越来越丰富、应用环境越来越复杂,传统协同过滤算法正面临更加严峻的数据稀疏性、冷启动、可扩展性、可解释性等问题。最近,一些研究工作尝试把上下文信息融合到协同过滤算法,取得了一定的性能提升。从这些初步尝试可以看出,上下文信息与用户兴趣有紧密联系,它们的引入有助于提高预测精度和用户满意度,因此融合上下文信息对于改进协同过滤算法具有重要意义。鉴于此,本文对协同过滤算法进行了系统分析,对上下文信息进行了更加深入的探讨,进而针对不同上下文的历史评分数据,设计了多种混合协同过滤算法能够更高效地利用上下文信息解决当前推荐系统面临的问题。本文主要工作和创新如下:1.融合物品分类结构和内容信息的协同过滤算法研究。目前,大部分关于可扩展性和冷启动问题的研究主要针对用户进行展开,而很少关注系统中动态更新的物品,尤其对大规模物品缺乏可扩展性,对新物品也不能取得令人满意的推荐结果。本研究发现,在有明确物品分类的前提下,同种物品之间一定会存在一些相同的内容属性或者其他一些潜在特征,因此用户对同种物品应该具有相似兴趣。基于此发现,本研究从物品关系以及物品特征入手,利用物品分类信息、物品内容信息(关键字)等上下文提出一种逐步优化用户兴趣的分层协同过滤算法。分析显示该算法对大规模物品有可扩展性,还能解决新物品的冷启动问题,并且真实数据集上的实验结果表明该算法在不同比例稀疏数据情况下可以取得较高的预测精度,而且针对新物品具有较好的冷启动预测能力。2.融合用户-物品内容上下文关联信息的协同过滤算法研究。在之前的算法中,虽然物品分类信息有助于利用物品相似性优化用户兴趣,但是分类需要事先构建,这种较高的数据要求限制了该算法的适用范围,另外该算法不能对用户进行扩展,也不能解决新用户的冷启动问题。为了设计更通用可扩展的算法,本研究转而关注内容上下文,也就是用户内容信息(标签)和物品内容信息(关键字)。用户-物品之间的历史评分数据为它们的内容上下文建立了关联关系。基于此发现,本研究从内容上下文入手,将协同过滤与基于内容的推荐算法相结合,提出一种根据内容相似性产生预测结果的间接协同过滤算法。分析显示该算法具有较强的可解释性和可扩展性,并且真实数据集上的实验结果表明该算法在不同比例稀疏数据情况下可以取得较高的预测精度,而且针对新用户和新物品都具有较好的冷启动预测能力。3.融合子群组间潜在共享信息的协同过滤算法研究。除了直接将上下文信息与推荐算法进行耦合外,最近出现了一类基于子群组的改进算法,主要思想是根据上下文信息,将整个数据集划分到不同子群组,然后在这些子群组上分别运行协同过滤算法产生各自的预测结果。但是不均衡稀疏数据会造成子群组上协同过滤结果不稳定的问题。对这些子群组分析后,可以发现它们所包含的用户和物品之间存在隐含联系。基于此发现,本研究从子群组间潜在共享信息入手,提出一种基于知识迁移的跨群组协同过滤算法,它利用少数性能较好子群组上的协同过滤结果构建评分矩阵的多个近似,然后加权聚合这些近似产生预测结果。分析显示该算法减少了一些性能较差子群组上的不必要计算,而且真实数据集上的实验结果表明该算法提高了预测精度,尤其是在非常稀疏数据上其性能提升尤为明显,说明该算法缓解了数据稀疏性问题。
其他文献
本文对余热锅炉的制造技术进行了分析研究,对管板的加工制造、换热管与管板的焊接、三通调节阀座的安装、热处理工艺的确定、浇注料的施工等关键技术环节的实施进行了探讨,以确
2000年6月26日是人类科技史上一个令人难忘的日子,美国、英国、法国、德国、日本和中国科学家同时向世界宣布:人类基因组工作草图已基本完成,已绘制出人体97%的基因组,其中85
新型“隐身术”一直以来,科学家们都在进行隐身技术的研究,并获得了一定的成效,但是这些成效多数利用了变色龙的变色原理,即把自己的颜色变得与周围环境一样来进行伪装。例如,日本
本文研究结构化环境下基于信息融合的道路场景感知技术。集中研究在结构化环境下摄像机与激光雷达的标定技术、融合技术、以及若干基于融合的环境感知技术。本文的工作是国家
随着高校职能的发展与完善,人才需求的多样化也日益凸显。在大学中,除了占据主体的教学科研人员之外,高教管理人员的重要功用已不言而喻。作为学校整体运转的桥梁与纽带,高教
从西方智库的成功经验来看,西方智库之所以能够成为思想创新的工厂、能够产生强大的影响力,主要是因为四个因素:开放的市场环境、充足的市场需求、高质量的产品和全方位的市
期刊
文章阐述了洛阳市洛龙区农业机械化的发展现状,分析了农机推广中存在的问题,并针对农业机械化发展进程中的主要问题提出了加快我区农机化发展问题的对策。