论文部分内容阅读
随着互联网的进一步普及以及大数据时代的到来,人们愈来愈被信息过载问题所困扰。推荐系统的诞生有效应对了这一问题,因而自从上世纪提出以来一直受到各界广泛关注与研究。现如今,不同的推荐技术已被广泛应用于各个领域,不仅给商家带来额外的商业利益,而且提升了互联网的用户体验。协同过滤推荐算法是应用研究最为成功且普遍的推荐算法之一,其中基于用户的协同过滤推荐算法的核心是用户间的相似性度量,进而依据相似度大小为目标用户选取邻居集,最后依据邻居集用户的评分情况为其进行相应的推荐。本文针对推荐系统领域中数据稀疏性问题及数据含噪问题研究了基于用户的协同过滤推荐算法,并取得以下科研成果: 1.面对推荐领域的数据稀疏性问题,提出一种结合巴氏距离与雅克比距离的稀疏数据用户相似度模型。本方法不仅利用了用户的共同评价物品的评价信息,而且将用户的非共同评价物品的评价信息加以考虑,所以可以应对数据稀疏性问题。另外本方法结合巴氏系数与雅克比系数衡量物品之间的全局相似性信息,并且在计算用户评分的局部相似性信息时将用户的平均评分与评分中位数同时考虑并结合Sigmoid函数以更好地计算用户两两评分之间的相似性,最后将物品的相似性信息与两两评分相似性信息结合以算出最终的用户相似性。仿真结果表明提出的相似性指标在数据比较稀疏时可以更好为目标用户选取邻居集,进而提升最终的推荐质量。 2.针对推荐系统中原始数据存在噪声信息的问题,提出一种结合物品相似性进行用户噪声评分信息的检测去除方法。该方法首先结合已有的指标计算物品间的相似性,接着利用计算出的物品相似性预测某用户对某物品的喜好程度,最后与实际评分进行对比,若差值绝对值大于预先给定的阈值,则判定该实际评分为噪声信息并去除。经过上述预处理后,再利用传统的基于用户的协同过滤推荐方法进行推荐。本方法不仅将项目的相似性信息以一定的方式结合到基于用户的协同过滤推荐算法中,而且是在评分的层次上进行噪声评分信息的检测与去除,使得用户的其它有效评分信息得以保留。仿真结果显示本方法可以提升最终的推荐质量。 3.针对用户评分信息的稀疏性问题以及传统仅仅基于评分的相似度计算得到的推荐正确率有限的问题,并且考虑到差分进化算法的诸多优点,提出一种基于差分进化算法优化结合人口统计信息的推荐方法。本方法首先计算具有不同侧重的评分相似度因子,进而量化用户不同的人口统计信息以形成不同的用户信息相似度因子,在不同特征信息即不同的相似度因子结合时,其权值的设定需要经过差分进化算法的优化,使不同的特征信息对应的相似度因子在最终用户相似性计算中表现出合适的贡献度。实验结果表明结合人口统计信息经过优化的相似性度量可以获得更好的推荐效果。 本文工作得到如下基金资助:国家自然科学基金(No.61672405),中央高校基本科研业务费专项资金资助(Nos. JBG160229和JB170204)。