论文部分内容阅读
基于协同过滤算法的书籍推荐系统能够向用户提供个性化的书籍推荐,方便人们的阅读行为并提高人们的阅读效率。但当前大多数书籍推荐应用中普遍存在缺少用户对书籍的评分数据甚至没有评分数据的情况,即使在有用户评分的情况下,也存在用户评分数据不准确、评分稀疏等问题,这使得传统协同过滤推荐算法的应用受到阻碍。针对上述问题,本文展开了基于大规模用户隐式阅读行为数据的书籍推荐方法研究。基于真实的海量用户阅读日志数据,本文首先利用Hadoop分布式平台对大规模用户阅读行为进行预处理,并对相关用户隐式阅读行为数据进行分析,利用数据预处理得到的数据集对用户阅读行为数据进一步的统计与计算,为建模做好准备;然后,本文提出了一种基于用户隐式行为的书籍推荐方法,在一定程度上解决了书籍推荐系统中用户评分缺失的问题,并通过实验证明,所提方法与传统的经典协同过滤方法相比,提高了推荐准确率。本文的主要工作和成果总结如下:(1)为了提高对大规模数据处理的效率,本文采用基于Hadoop分布式平台的MapReduce数据处理模型,先将海量数据进行过滤、清洗等数据预处理工作,得到有效的用户隐式行为数据,再对已清洗过的用户行为数据进行进一步的统计和计算。利用大规模数据处理方法提高了本文工作的效率,并在一定程度上提高了用户阅读行为数据的准确度。(2)为了解决书籍推荐系统中评分数据不准确、评分稀疏等问题,提高书籍推荐的准确率,本文提出了一种基于用户隐式阅读行为数据的评分模型:时间-频次模型(T-F Model)。将具有价值的用户隐式行为数据转化为用户评分数据,填充用户-书籍评分矩阵,实现准确的面向书籍的协同过滤推荐。(3)为了验证基于大规模用户隐式行为反馈的书籍推荐方法有效性,本文将处理好的数据集分为训练集与测试集,利用训练集预测用户对书籍的评分,并根据评分高低产生书籍推荐,从时间和频次分别取不同的权值、分别利用基于用户和基于项目的协同过滤算法产生推荐等几个方面,与传统基于简单评分矩阵的协同过滤推荐方法进行比较,证明了本文所提方法的准确性与可行性。