论文部分内容阅读
随着互联网技术的不断发展、电子商务应用的不断普及,越来越多的信息充斥在互联网之上。面对如此多的资源,如何快速找到自己真正所需要的信息,成为众多研究学者、理论专家和网络用户关心的关键问题之一。在这样的环境下,推荐系统应运而生。实现个性化推荐的具体技术有很多种,其中协同过滤推荐是当前电子商务环境下应用最成功和广泛的推荐技术之一。然而随着站点结构、内容复杂度和用户数目的不断增长,协同过滤推荐算法也遇到了实时性、数据稀疏性、可扩展性等种种问题。传统的协同过滤推荐系统都要求用户对项目进行评分,这样往往会打断用户的浏览过程,甚至影响到用户的情绪;另外相当多的用户不愿意评分,导致评分数据集的极端稀疏。在这种情况下,本文将提出一种基于Web使用挖掘的用户-项矩阵模型的构建方法。该方法通过对Web日志进行有效的数据挖掘,发掘隐藏在日志背后的用户、项目、访问时间和访问次数等信息来获取用户评分值,在不影响用户正常浏览的情况下完成了数据的收集。因为用户对页面的浏览覆盖率比用户对页面的显式评分要更加真实客观,所以相对于传统的数据集,本文提出的方法所收集到的数据要全面得多。针对传统协同过滤的实时性和数据稀疏性问题,本文将提出一种改进的协同过滤推荐算法。其基本思想是:在原始数据集中结合用户间和项目间的双向信息,即利用用户的最近邻和项目的最近邻对未评分项目进行协同式的平滑处理,以降低矩阵的稀疏程度,解决推荐算法的稀疏性问题。在此基础上,运用数据挖掘领域的聚类算法对系统中所有用户进行用户聚类,尽可能地把相似的用户聚在同一个用户类中,而把不相似的用户聚到不同的用户类中,这一步可采用离线周期进行。在线推荐时,只需要计算目标用户与各个用户聚类簇中心的相似性,然后在最相似的前若干个聚类簇中查找目标用户的最近邻,最后根据目标用户的最近邻居集的信息对各个项目进行评分预测,向目标用户提供推荐。这样缩小了搜索邻居的范围,提高了推荐算法的实时性。最后通过实验对改进的协同过滤算法进行了测试,验证了算法的合理性和有效性,进而证明了本文提出来的算法可以较有效地克服用户评分数据非常稀疏下传统方法存在的不足之处,有效地提高了推荐算法的实时性和准确性。