论文部分内容阅读
随着网络的持续发展,网络图书资源也越来越丰富。每位喜欢图书的用户其需求对于整个网络的图书资源来说非常渺小,且用户无法在如此庞大的图书海洋中找到其感兴趣的图书,即便用户找到了某些图书,但该图书并不一定符合用户喜好,这不仅浪费了用户的时间,并且对于某些需要购买图书的电子商务网站来说,还浪费了用户的金钱。针对上面的一些问题,个性化推荐算法在网络图书资源领域的研究应运而生。算法利用读者行为数据,分析读者间的兴趣相似度或图书间的相似度,为当前读者实现个性化推荐。基于邻域的推荐是应用最为广泛的个性化推荐技术之一。基于邻域的推荐中的协同过滤推荐则应用最为成功,包括基于用户的最近邻推荐和基于项目的最近邻推荐。但是传统的协同过滤算法存在着一些问题,在某些数字图书网站及社区中,读者数目越来越多,图书数目愈来愈大,因此对于算法的输入矩阵,及用户项目评分矩阵则越来越稀疏;同时,两个算法也存在不同程度的问题,比如传统算法没有考虑到活跃用户和流行项目对算法造成的影响等。文章对数据集的历史行为数据进行了详细的分析,在其基础上得到了活跃用户和流行项目的关系,对两个传统算法的相似度计算进行了相应的改进,经过在BookCrossing图书社区数据集的验证说明,对流行项目和活跃用户做出硬性惩罚的改进算法在牺牲一定精确度的前提下大大提高了算法推荐长尾项目的能力;而引用了IUF和IIF参数对两者做出软性惩罚后在推荐精度以及推荐长尾项目的能力上都有所提高。同时,文章综合比较了两种传统的协同过滤算法,分析两者所具有的优势和缺陷,提出了一种基于两者混合的协同过滤推荐算法,该算法不仅考虑到了用户之间的关联性,而且考虑到了项目之间的关联性,并且对于输入的用户项目评分矩阵进行了相应的压缩,综合两者之间的优点进行最终的推荐。经过在BookCrossing图书社区的数据集上进行了相关的验证,说明该算法大大提高了推荐的精确率和召回率,推荐长尾项目的能力处于传统的两个算法之间。