论文部分内容阅读
近年来,随着个性化推荐技术在互联网中的广泛应用,人们在面对海量的数据可以快速的做出抉择。然而,当前推荐算法存在一些问题。一方面,很多网站的数据往往包含多个领域,如豆瓣电影有喜剧片、爱情片和动作片等,针对包含多个领域的网站设计推荐算法时需要同时考虑领域共享的知识和领域特有的知识;另一方面,随着个性化推荐技术的发展,数据的稀疏性成为了制约提升推荐质量的瓶颈,因此,如何更高效的获取评分数据成了关键。近年来,主动学习方法被提出用来解决推荐算法中稀疏性问题。本文基于个性化推荐技术、多领域推荐模型和主动学习展开相关研究,提出了一种针对多领域推荐的主动学习算法,具体工作如下:1.提出一种新的问题,即利用主动学习技术解决多领域推荐算法中的稀疏性问题。该问题的挑战在于传统的基于主动学习的推荐算法是针对单一领域上的数据稀疏性问题,在主动获取数据时忽略了跨越领域之间的知识。因此,如果将传统的算法直接应用在多领域推荐时,会浪费更多的人工标注成本。针对这个问题,本文设计了一种全新的多领域主动学习策略,其能够在主动获取数据时不仅能够考虑不同领域内部的特有知识,还可以考虑多个领域之间的共享知识。2.针对多领域推荐模型中的领域特有特征和领域独立特征,分别设计基于期望信息熵主动学习策略和基于方差的主动学习策略来衡量这两部分的泛化误差,进而使多领域主动学习策略可以应用在具体的多领域推荐模型中。3.设计与实现了一套多领域推荐实验系统。在五个由真实数据构成的多领域推荐任务上进行性能对比、显著性测试和参数敏感性等三组实验,实验结果表明本文题出的主动学习策略优于当前的主动学习策略,能够极大节约人工标注成本,并且具有良好的稳定性。