论文部分内容阅读
随着WWW的快速发展,信息过载成为人们获取有效信息的一个障碍,个性化服务技术应运而生。推荐系统是个性化服务技术在Web 应用中最重要的形式,它融合了搜索引擎、数据挖掘、机器学习等技术,能够基于用户的口味和喜好等提供相对精确的推荐,在电子商务系统得到了广泛的应用。
目前,几乎所有大型的电子商务网站,如Amazon、CDNow、Netflix、eBay、阿里巴巴、拍拍网等,都不同程度地使用了各种形式的推荐技术。协同过滤算法是当前推荐技术中最有效的信息过滤技术之一。它通过比较用户之间的相似性来过滤信息,应用于推荐系统不仅能为用户带来新的感兴趣的资源而且不受资源形式的限制。但这些传统协同过滤算法的最大弱点是可扩展性问题,即随着用户数量以及商品项目的增加,计算复杂度快速增长导致大规模电子商务系统的性能瓶颈。
本文针对上述协同过滤算法的问题,从时间信息角度出发,分析了用户兴趣漂移现象,阐述了考虑用户兴趣变化而发展起来的基于时间加权的协同过滤算法。同时重点考察项目的时间信息属性,提出一种新的基于资源时效的协同过滤算法。
本文的创新点主要有两个,一是通过对用户评分/购买历史进行分段,侦测用户兴趣变化和计算用户兴趣度,使基于时间权值的协同过滤算法更具个性化;二是整合项目的时间信息属性,提出项目的资源时效概念,为项目时间信息的使用提供了具体形式,并在此基础上发展了基于资源时效的协同过滤算法,和基于资源时效的搜索引擎查询分析技术。
本文在实证部分采用Grouplens的MovieLens 数据进行了以上理论的操作,并对结果进行了验证。验证比较了基于时间权值的协同过滤算法和基于资源时效的协同过滤算法。验证结果表明:项目的时间信息对待推荐候选集具有很强的约减作用,恰当使用该信息可以提高推荐精度。