论文部分内容阅读
当今社会,互联网技术日新月异,各种新技术、新思想层出不穷,人类已经彻底告别了信息技术极端匮乏的岁月,慢慢步入信息日益过载的时代。在这个背景下,不管是信息的生产者还是消费者都将会受到一定程度的冲击。一方面,信息的生产者很难确保他们生产的信息能够被对其感兴趣的用户注意到;另一方面,信息的消费者很难从浩如烟海的信息中找出自己真正感兴趣的东西。推荐系统的出现就是为了帮助我们解决上面的这两个问题。它通过对用户先前行为信息的学习来为用户的兴趣爱好建模,并根据此模型来预测用户对未知物品的偏好,实现个性化的推荐。目前推荐系统已被部署到各大网站来为用户产生个性化的推荐列表,比如说Amazon、Hulu等。推荐算法的种类繁多,不过时至今日为大多数人所接受的是协同过滤推荐算法。因此本文介绍了协同过滤算法领域一些比较经典的算法,并提出了一些改进方案以使原有算法更为完善。最为重要的是,本文将协同过滤算法运用到电影推荐系统中去,使这一算法具体化,形象化。本文的主要工作如下:1.简单叙述了推荐系统在现实生活中不同领域的一些应用,并介绍了如何去判定一个推荐系统的好坏。2.深入分析了TopN推荐中基于邻域的算法,其实它又可以再细分为两种具体的算法,了解这两种算法的基本思想、基本步骤、优缺点及适用场合等等,并在原有算法的基础上提出了一些改进,最后在Movie Lens数据集上对这两种算法及其改进算法进行了实验。之所以要抽出一章来介绍TopN推荐,是因为TopN推荐问题更加切合于实际,也是未来的热点方向。3.详细介绍了评分预测中的协同过滤算法,相比于TopN推荐,评分预测的理论基础更加稳固,发展更为成熟。所谓的评分预测问题就是利用用户之前的打分行为来推断他对未有过行为的物品的具体打分值。这一部分是整个论文的重点,将继续讨论基于邻域的算法在评分预测问题中的应用,随之介绍了一种更为简单高效的协同过滤推荐算法Slope One,接着介绍了矩阵分解模型以及隐语义模型在评分预测中的应用,最后我们依然在Movie Lens数据集上对这部分提出的算法进行了离线实验。4.为了更加清楚地明白协同过滤推荐算法的核心思想,又开发了一种个性化的电影推荐系统,它是利用Apache Mahout实现的,在该推荐系统中包含了之前介绍过的所有推荐策略,用户可以自行选择使用。